Vorrichtung und Verfahren zum skalierbaren Codieren und 
Vorrichtung und Verfahren ziim skalierbare Decodieren 



5 Beschreibung 

Die vorliegende Erfindung bezieht sich auf Audio- und/oder 
Videocodierer/Decodierer und insbesondere auf Codierer- 
/Decodierereinrichtungen, die eine Skalierbarkeit 
10 aufweisen. 

Moderne Audiocodierverf ahren, wie z. B. MPEG LayerS (MP3) 
Oder MPEG AAC verwenden Transf ormationen wie beispielsweise 
die sogenannte modif izierte diskrete Cosinustransf ormation 

15 (MDCT) , urn eine blockweise Frequenzdarstellung eines 
Audiosignals zu erhalten. Ein solcher Audiocodierer erhalt 
iiblicherweise einen Strom von zeitdiskreten Audio- 
Abtastwerten . Der Strom von Audio-Abtastwerten wird 
gefenstert, um einen gefensterten Block von beispielsweise 

20 1024 Oder 2048 gefensterten Audio-Abtastwerten zu erhalten. 
Zur Fensterung warden verschiedene Fehsterf unktionen 
eingesetzt, wie z. B. ein Sinus-Fenster, etc. 

Die gefensterten zeitdiskreten Audio-Abtastwerte werden 
25 dann mittels einer Filterbank in eine spektrale Darstellung 
umgesetzt. Prinzipiell kann hierzu eine Fourier- 
Transformation, Oder aus speziellen Grunden eine Abart der 
Fourier-Transformation, wie z. B. eine FFT oder, wie es 
ausgefuhrt worden ist, eine MDCT eingesetzt werden. Der 
30 Block von Audio-Spektralwerten am Ausgang der Filterbank 
kann dann je nach Bedarf weiter verarbeitet werden. Bei den 
oben bezeichneten Audio-Codierern folgt eine Quantisierung 
der Audio-Spektralwerte, wobei die Quantisierungsstuf en 
typischerweise so gewahlt werden, daft das durch das 
35 Quantisieren eingefiihrt Quantisierungsrauschen unterhalb 
der psychoakustischen Maskierungsschwelle liegt, d. h. 
"wegmaskiert" wird. Die Quantisierung ist eine 

verlustbehaf tete Codierung. Um eine weitere 
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Datenmengenreduktion zu erhalten, werden die quantisierten 
Spektralwerte anschliefiend beispielsweise mittels einer 
Huf fman-Codierung Entropie-codiert . Durch Hinzufugen von 
Seiteninf ormationen, wie z. B. Skalenf aktoren etc. wird aus 
5 den Entropie-codierten quantisierten Spektralwerten mittels 
eines Bitstrom-Multiplexers ein Bitstrom gebildet, der 
gespeichert Oder libertragen werden kann. 

Im Audio-Decodierer wird der Bitstrom mittels eines 

10 Bitstrom-Demultiplexers in codierte quantisierte 

Spektralwerte und Seiteninf ormationen aufgeteilt. Die 
Entropie-codierten quantisierten Spektralwerte werden 
zunachst Entropie-decodiert, um die quantisierten 
Spektralwerte zu erhalten. Die quantisierten Spektralwerte 

15 werden dann invers quantisiert, um decodierte Spektralwerte 
zu erhalten, die Quantisierungsrauschen aufweisen, das 
jedoch unterhalb der psychoakustischen Maskierungsschwelle 
liegt und daher unhorbar sein wird. Diese Spektralwerte 
werden dann mittels eines Synthese-Filterbank in eine 

20 zeitliche Darstellung umgesetzt, um zeitdiskrete decodierte 
Audio-Abtastwerte zu erhalten. In der Synthese-Filterbank 
muB ein zum Transf ormations-Algorithmus inverser 
Transformations-Algorithmus eingesetzt werden. AuJierdem muB 
nach der Frequenz-Zeit-Rucktransf ormation das Fenstern 

25 riickgangig gemacht werden. 

Um eine gute Frequenzselektivitat zu erreichen, verwenden 
moderne Audio-Codierer typischerweise eine Block- 
Uberlappung. Ein solcher Fall ist in Fig. 10a dargestellt. 

30 Zunachst werden beispielsweise 2048 zeitdiskrete Audio- 
Abtastwerte genommen und mittels einer Einrichtung 402 
gefenstert. Das Fenster, das die Einrichtung 402 
verkorpert, hat eine Fensterlange von 2N Abtastwerten und 
liefert ausgangsseitig einen Block von 2N gefensterten 

35 Abtastwerten. Um eine Fensteriiberlappung zu erreichen, wird 
mittels einer Einrichtung 404, die lediglich aus 
Ubersichtlichkeitsgriinden in Fig. 10a getrennt von der 
Einrichtung- 402 dargestellt ist, ein zweiter Block von 2N 
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gefensterten Abtastwerten gebildet. Die in die Einrichtung 
404 eingespeisten 2048 Abtastwerte sind jedoch nicht die an 
das erste Fenster unmittelbar anschliefienden zeitdiskreten 
Audio-Abtastwerte, sondern beinhalten die zweite Halfte der 
5 durch die Einrichtung 402 gefensterten Abtastwerte und 
beinhalten zusatzlich lediglich 1024 "neue" Abtastwerte. 
Die Uberlappung ist durch eine Einrichtung 406 in Fig. 10a 
symbolisch dargestellt, die einen Uberlappungsgrad von 50% 
bewirkt. Sowohl die durch die Einrichtung 402 ausgegebenen 

10 2N gefensterten Abtastwerte als auch die durch die 
Einrichtung 4 04 ausgegebenen 2N gefensterten Abtastwerte 
werden dann mittels einer Einrichtung 408 bzw. 410 dem 
MDCT-Algorithmus unterzogen. Die Einrichtung 408 liefert 
gemali dem bekannten MDCT-Algorithmus N Spektralwerte fur 

15 das erste Fenster, wahrend die Einrichtung 410 ebenfalls N 
Spektralwerte liefert, jedoch fur das zweite Fenster, wobei 
zwischen dem ersten Fenster und dem zweiten Fenster eine 
Uberlappung von 50% besteht. 

20 Im Decodierer werden die N Spektralwerte des ersten 
Fensters, wie es in Fig. 10b gezeigt ist, einer Einrichtung 
412, die eine inverse modifizierte diskrete 
Cosinustransf ormation durchfiihrt, zugefuhrt. Dasselbe gilt 
fiir die N Spektralwerte des zweiten* Fensters. Diese werden 

25 einer Einrichtung 414 zugefuhrt, die ebenfalls eine inverse 
modifizierte diskrete Cosinustransf ormation durchfiihrt . 
Sowohl die Einrichtung 412 als auch die Einrichtung 414 
liefern jeweils 2N Abtastwerte fiir das erste Fenster bzw. 
2N Abtastwerte fiir das zweite Fenster. 

30 

In einer Einrichtung 416, die in Fig. 10b mit TDAC (TDAC = 
Time Domain Aliasing Cancellation) bezeichnet ist, wird die 
Tatsache beriicksichtigt , dali die beiden Fenster liberlappend 
sind. Insbesondere wird ein Abtastwert yi der zweiten 
35 Halfte des ersten Fensters, also mit einem Index N+k, mit 
einem Abtastwert y2 aus der ersten Halfte des zweiten 
Fensters, also mit einem Index k summiert, so dali sich 
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ausgangsseitig, also im Decodierer, N decodierte zeitliche 
Abtastwerte ergeben . 

Es sei darauf hingewiesen, daJi durch die Funktion der 
5 Einrichtung 416, die auch als Add-Funktion bezeichnet wird, 
die in dam durch Fig. 10a schematisch dargestellten 
Codierer durchgefuhrte Fensterung gewisserraaJien automatisch 
beriicksichtigt wird, so dali in dem durch Fig. 10b 
dargestellten Decodierer keine • explizite "inverse 
10 Fensterung" stattzuf inden hat. 

Wenn die durch die Einrichtung 4 02 oder 404 implement ierte 
Fensterfunktion mit w(k) bezeichnet wird, wobei der Index k 
den Zeitindex darstellt, bezeichnet wird, so muli die 

15 Bedingung erfiillt sein, daft das Fenstergewicht w(k) im 
Quadrat addiert zu dem Fenstergewicht w(N+k) im Quadrat 
zusammen 1 ergibt, wobei k von 0 bis N-1 lauft. Wenn ein 
Sinus-Fenster verwendet wird, dessen Fenster-Gewichtungen 
der ersten Halbwelle der Sinus-Funktion folgen, so ist 

20 diese Bedingung immer erfiillt, da das Quadrat des Sinus und 
das Quadrat des Cosinus fur jeden Winkel zusammen den Wert 
1 ergeben. 

Nachteilig an dem in Fig. 10a beschriebenen Fenster^ 
25 Verfahren mit anschlieliender MDCT-Funktion ist die 
Tatsache, dalJ die Fensterung durch Multiplikation eines 
zeitdiskreten Abtastwerts, wenn an ein Sinus-Fenster 
gedacht wird, mit einer Gleitkommazahl erreicht wird, da 
der Sinus eines Winkels zwischen 0 und 180 Grad abgesehen 
30 von dem Winkel 90 Grad keine Ganzzahl ergibt. Auch wenn 
ganzzahlige zeitdiskrete Abtastwerte gefenstert werden, 
entstehen nach dem Fenstern also Gleitkommazahlen . 

Daher ist, auch wenn kein psychoakustischer Codierer 
35 verwendet wird, d. h. wenn eine verlustlose Codierung 
erreicht werden soli, am Ausgang der Einrichtungen 408 bzw. 
410 eine Quantisierung notwendig, um eine einigermaiJen 
uberschaubare Entropie-Codierung durchfiihren zu konnen. 
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Wenn also bekannte Transf ormationen, wie sie anhand von 
Fig. 10a betrieben worden sind, fur ein verlustloses 
Audiocodieren eingesetzt werden soil, muB entweder eine 
5 sehr feine Quantisierung eingesetzt werden, uin den 
resultierenden Fehler aufgrund der Rundung der 
Gleitkommazahlen vernachlassigen zu konnen, Oder das 
Fehlersignal muii zusatzlich beispielsweise im Zeitbereich 
codiert werden. 

10 

Konzepte der ersteren Art, also bei denen die Quantisierung 
so fein eingestellt, dali der resultierende Fehler aufgrund 
der Rundung der Gleitkommazahlen vernachlassigbar ist, sind 
beispielsweise in der deutschen Patentschrif t DE 197 42 201 

15 CI offenbart. Hier wird ein Audiosignal in seine spektrale 
Darstellung uberfuhrt und quantisiert, um quantisierte 
Spektraiwerte zu erhalten. Die quantisierten Spektralwerte 
werden wieder invers quantisiert, in den Zeitbereich 
uberfuhrt und mit dem urspriinglichen Audiosignal 

20 verglichen. Liegt der Fehler, also der Fehler zwischen dem 
urspriinglichen Audiosignal und dem quantisierten/invers 
quantisierten Audiosignal, oberhalb einer Fehlerschwelle, 
so wird der Quantisierer ruckkopplungsmaiiig feiner 
eingestellt, und der Vergleich wird erneut durchgefiihrt • 

25 Die Iteration ist beendet, wenn die Fehlerschwelle 
unterschritten wird. Das dann noch moglicherweise 
vorhandene Restsignal wird mit einem Zeitbereichscodierer 
codiert und in einen Bitstrom geschrieben, der neben dem 
Zeitbereichs-codierten Restsignal auch codierte 

30 Spektralwerte umfalit, die gemaJJ den 

Quantisierereinstellungen quantisiert worden sind, die zum 
Zeitpunkt des Abbruchs der Iteration vorhanden waren. Es 
sei darauf hingewiesen, dali der verwendete Quantisierer 
nicht von einem psychoakustischen Modell gesteuert werden 

35 muft, so daft die codierten Spektralwerte typischerweise 
genauer quantisiert sind, als dies aufgrund des 
psychoakustischen Modells sein mulite. 
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In der Fachverof f entlichung „A Design of Lossy and Lossless 
Scalable Audio Coding'\ T. Moriya u,a., Proc. ICASSP, 2000, 
ist ein skalierbarer Codierer beschrieben, der als erstes 
verlustbehaf tetes Datenkompressionsmodul z. B. einen MPEG- 
5 Codierer umfalit, der eine blockweise digitale Signalform 
als Eingangssignal hat und den komprimierten Bitstrom 
erzeugt. In einem ebenfalls vorhandenen lokalen Decodierer 
wird die Codierung wieder rlickgangig gemacht, und es wird 
ein codiertes/decodiertes Signal erzeugt. Dieses Signal 

10 wird mit dem urspriinglichen Eingangssignal verglichen, 
indem das codierte/decodierte Signal von dem urspriinglichen 
Eingangssignal subtrahiert wird. Das Fehlersignal wird dann 
in ein zweites Modul eingespeist, wo eine verlustlose 
Bitkonversion verwendet wird. Diese Konversion hat zwei 

15 Schritte. Der erste Schritt besteht in einer Konversion von 
einem Zweierkomplementf ormat in ein Vorzeichen-Betrag- 
Format. Der zweite Schritt besteht in der Umwandlung von 
einer vertikalen Betragssequenz in eine horizontale 
Bitsequenz in einem Verarbeitungsblock , Die verlustlose 

20 Datenumwandlung wird ausgefuhrt, um die Anzahl von Nullen 
zu maximieren oder die Anzahl von auf einanderf olgenden 
Nullen in einer Sequenz zu maximieren, um eine moglichst 
gute Komprimierung des zeitlichen Fehlersignals, das als 
Folge von digitalen Zahlen vorliegt, zu erreichen. Dieses 

25 Prinzip basiert auf einem Bit-Slice-Arithmetic-Coding- 
(BSAC-) Schema, das in der Fachverof f entlichung „Multi- 
Layer Bit Sliced Bit Rate Scalable Audio Coder'', 103. AES- 
Convention, Preprint Nr. 4520, 1997, dargestellt ist. 

30 Die oben bezeichnete BSAC-Veroff entlichung offenbart in 
etwa einen Codierer, wie er in Fig. 8 dargestellt ist. Ein 
Zeitsignal wird in einen Block 80 eingespeist, der mit 
„Fenstern'' und Zeit~/Frequenzumsetzung bezeichnet ist. 
Typischerweise wird im Block 80 eine MDCT (MDCT 

35 modifizierte diskrete Kosinustransf ormation) verwendet. 
Hierauf werden die von dem Block 80 erzeugten MDCT- 
Spektralwerte in einem Block 82 quantisiert, um 
quantisierte Spektralwerte in binarer Form zu erhalten. Die 
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Quantisierung durch den Block 82 wird durch eine 
Einrichtung 84 gesteuert, die unter Verwendung eines 
psychoakustischen Modells eine Maskierungsschwelle 
berechnet, wobei die Quantisierung in dem Block 82 derart 
5 durchgeflihrt wird, dali das Quantisierungsrauschen unterhalb 
der psychoakustischen Maskierungsschwelle bleibt. In einem 
Block 85 werden die quantisierten Spektralwerte dann 
bitweise angeordnet, derart, daJJ die Bits gleicher Ordnung 
der quantisierten Spektralwerte in einer Spalte sind. In 

10 einem Block 8 6 werden dann Skalierungsschichten gebildet, 
wobei eine Skalierungsschicht einer Spalte entspricht. Eine 
Skalierungsschicht umfalit daher die Bits gleicher Ordnung 
. samtlicher quantisierten Spektralwerte. Daran anschlieJJend 
wird jede Skalierungsschicht nacheinander einer 

15 arithmetischen Codierung unterzogen (Block 87), wobei die 
von dem Block 87 ausgegebenen Skalierungsschichten in ihrer 
redundant codierten Form einer Bitstrombildungseinrichtung 
88 zugefuhrt werden, welche ausgangsseitig das 
skalierte/codierte Signal liefert, das neben den einzelnen 

20 Skalierungsschichten auch noch Seiteninf ormationen umfassen 
wird, wie es bekannt ist. 

Allgemein gesagt wird der bekannte skalierbare BSAC- 
Codierer die Bits hochster Ordnung aller nach 

25 psychoakustischen Gesichtspunkten quantisierten 

Spektralwerten nehmen, einer arithmetischen Codierung 
unterziehen und dann als erste Skalierungsschicht in den 
Bitstrom schreiben. Da typischerweise sehr wenige sehr 
groBe Spektralwerte vorhanden sein werden, haben auch sehr 

30 wenige quantisierte Spektralwerte ein Bit hochster Ordnung 
gleich „1^'. 

Zur Erzeugung der zweiten Skalierungsschicht werden nunmehr 
die Bits zweithochster Ordnung aller Spektralwerte 
35 genommen, einer arithmetischen Codierung unterzogen und 
dann in den Bitstrom als zweite Skalierungsschicht 
geschrieben, Diese Prozedere wird solange wiederholt, bis 
die Bits der geringsten Ordnung aller quantisierten 
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Spektralwerte arithmetisch codiert und als letzte 
Skalierungsschicht in den Bitstrom geschrieben worden sind. 

Fig. 9 zeigt einen skalierbaren Decodierer zum Decodieren 
5 von durch den in Fig. 8 gezeigten skalierbaren Codierer 
erzeugten skalierten/codierten Signalen. Der skalierbare 
Decodierer umfafit zunachst eine 

Bit s tromdef ormat ierungseinrichtung 90 , eine 

Skalierungsschichtextraktionseinf Ichtung/Decodierungseinric 

10 htung 91, eine inverse Quantisierungseinrichtung 92 sowie 
schlielXlich eine Frequenzbereich- 

/Zeitbereichumsetzungseinrichtung 93, um ein decodiertes 
Signal zu erhalten/ dessen Qualitat proportional zu der 
Anzahl der von der Einrichtung 91 ausgewahlten Anzahl von 

15 Skalierungsschichten abhangt. 

Im einzelnen wird die Bitstromdef ormatierungseinrichtung 
den Bitstrom aufpacken und neben den Seiteninf ormationen 
die verschiedenen Skalierungsschichten bereitstellen . Die 

20 Einrichtung 91 wird dann zunachst die erste 
Skalierungsschicht arithmetisch decodieren und abspeichern. 
Dann wird die zweite Skalierungsschicht arithmetisch 
decodiert und abgespeichert . Dieses Prozedere wird solange 
wiederholt, bis entweder alle im skalierten/codierten 

25 Signal enthaltenen Skalierungsschichten arithmetisch 
decodiert und abgespeichert worden sind, bzw. wird solange 
wiederholt, bis die liber einen Steuereingang 94 geforderte 
Anzahl von Skalierungsschichten decodiert und abgespeichert 
worden sind. Damit werden sukzessive die Binarmuster fur 

30 jede einzelne quantisierte Spektrallinie erzeugt, wobei 
diese in Binarform dargestellten quantisierten 
Spektralwerte unter Beriicksichtigung eines Skalenf aktors 
etc. der inversen Quantisierung 92 unterzogen werden 
konnen, um dann invers quantisierte Spektralwerte zu 

35 erhalten, die durch die Einrichtung 93 in den Zeitbereich 
umgesetzt werden mussen, um das decodierte Signal zu 
erhalten. 
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Bei der Decodierung wird somit mit jeder Skalierungsschicht 
ein Bit fur jeden Spektralwert gewonnen. Die z. B. nach 
einer Decodierung von fiinf Skalierungsschichten verfiigbaren 
Bits fur jede Spektrallinie sind die obersten fiinf Bits. Es 
5 sei darauf hingewiesen, dalJ bei sehr kleinen 
Spektralwerten, deren hochstwertiges Bit erst z. B. an - 
funfter Stelle kommt, durch die Decodierung von fiinf 
Skalierungsschichten erst das MSB (MSB = most significant 
bit) dieser Spektrallinie vorliegt, wobei zur genaueren 
10 Darstellung dieser Spektrallinie noch weitere 
Skalierungsschichten verarbeitet werden miissen. 

Die binare Darstellung von Spektralwerten bringt es mit 
sich, daft - die MDCT-Spektralwerte beispielsweise sind 
15 Amplitudenwerte - jedes zusatzliche Bit einen 
Genauigkeitsgewinn fiir die Spektrallinie von 6 dB bedeutet. 

Durch jede zusatzliche Skalierungsschicht ergibt sich somit 
eine Erhohung der Genauigkeit aller Spektralwerte um 6 dB. 

20 

Beachtet man nun, dali zumindest bei rauschartigen Signalen 
die Mithorschwelle nur etwa 6 dB unterhalb des Signals 
liegt, so ergibt sich, dali eine bitweise Skalierung, wie 
sie durch das bekannte Codier-/Decodierkonzept geliefert 
25 wird, insbesondere fiir eine effiziente Codierung der gerade 
noch horbaren Signalanteile, also beispielsweise fiir die 
unteren Bits der nach psychoakustischen Gesichtspunkten 
quantisierten Spektralwerte in der Genauigkeit 
problematisch ist. 

30 

Wird beispielsweise aufgrund eines 

Ubertragungskanalengpasses die unterste Skalierungsschicht 
des durch den Block 88 von Fig. 8 ausgegebenen 
skalierten/codierten Signals nicht iibertragen, so wird dies 
35 Genauigkeitsverluste von 6 dB zur Folge haben, was bei 
ungiinstiger Konstellation zu deutlich horbaren Storungen im 
decodierten Signal fiihren wird. 
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Die Aufgabe der vorliegenden Erfindung besteht darin^ ein 
Konzept zum skalierbaren Codieren/Decodieren zu schaffen^ 
durch das eine feinere Skalierbarkeit erreichbar ist. 

5 Diese Aufgabe wird durch eine Vorrichtung zum skalierbaren 
Codieren gemali Patentanspruch 1, ein Verfahren zum 
skalierbaren Decodieren gemali Patentanspruch 11, durch ein 
Verfahren zum skalierbaren Codieren gemaJi Patentanspruch 
19, ein Verfahren zum skalierbaren Decodieren gemali 
10 Patentanspruch 20 oder durch ein Computerprogramm gemali 
Patentanspruch 21 gelost. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
daJi die psychoakustischen Verdeckungsef f ekte im 

15 Frequenzbereich bandweise und nicht linienweise auftreten, 
so dali durch eine Erhohung der Genauigkeit einer 
Spektrallinie in einem Band derselbe Genauigkeitsgewinn pro 
Band erreicht wird, als wenn eine gleichmaliige bruchteilige 
Erhohung der Genauigkeit im ganzen Band durchgefiihrt werden 

20 wurde, was jedoch bei einer bitweisen Einteilung der 
Skalierungsschicht nicht moglich ist. Erf indungsgemafi wird 
die Verfeinerung der Genauigkeitsskalierung dadurch 
erreicht, dali die Bitschichten in Teilskalierungsschichten 
unterteilt werden. Im Gegensatz zum Stand der Technik, bei 

25 dem die Bits einer bestimmten Ordnung aller quantisierten 
Spektralwerte zu einer Skalierungsschicht zusammengef aJit 
wurden, werden erf indungsgemaJi in einer ersten 
Teilskalierungsschicht die Bits dieser Ordnung von nur 
einem Teil der quantisierten Spektralwerte in dem 

30 betrachteten Band als Teilskalierungsschicht verwendet. Die 
nachste Teilskalierungsschicht erhalt dann die Bits 
derselben Ordnung, nun jedoch von anderen quantisierten 
Spektralwerten als in der erste Teilskalierungsschicht, um 
die zweite Teilskalierungsschicht zu erhalten. 

35 

Wenn beispielsweise ein Band mit m = 4 quantisierten 
Spektralwerten betrachtet wird, so wiirde im Stand der 
Technik eine bestimmte Skalierungsschicht die Bits 
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bestimmter Ordnung aller vier Spektrallinien in dem 
betrachteten Band umfassen. Die nachste Skalierungsschicht 
wurde dann wieder samtlich Bits der bestimmten Ordnung 
weniger 1 aller quantisierten Spektrallinien umfassen, so 
5 dali sich von Skalierungsschicht zu Skalierungsschicht ein 
Genauigkeitsgewinn pro Spektrallinie von 6 dB ergibt. 

Erf indungsgemali wird die bestimmte Skalierungsschicht 
nunmehr in maximal m Teilskalierungsschichten aufgeteilt. 
Die erste Teilskalierungsschicht wurde dann lediglich das 
Bit bestimmter Ordnung der ersten Spektrallinie umfassen 
und keine Bits der zweiten, dritten und vierten 
Spektrallinie. Die zweite Teilskalierungsschicht wurde dann 
das Bit bestimmter Ordnung der zweiten quantisierten 
Spektrallinie umfassen, jedoch kein Bit fiir die erste, 
dritte und vierte Spektrallinie- Auf ahnliche Art und Weise 
wird die dritte Teilskalierungsschicht das Bit bestimmter 
Ordnung der dritten Spektrallinie umfassen, und wird die 
vierte Teilskalierungsschicht das Bit bestimmter Ordnung 
der vierten Spektrallinie des betrachteten Bandes umfassen. 
Nachdem, wie es ausgefuhrt worden ist, Verdeckungsef f ekte 
bandweise und nicht linienweise auftreten, liefert jede 
zusatzliche Teilskalierungsschicht einen Genauigkeitsgewinn 
von 6/m dB. Dies bedeutet, dali bei dem betrachteten 
Beispiel m = 4 jede Teilskalierungsschicht einen 
Genauigkeitsgewinn von 1,5 dB bringt. 

Es sei darauf hingewiesen, dafi in einer 
Teilskalierungsschicht auch die Bits der bestimmten Ordnung 
30 von mehr als einer quantisierten Spektrallinie vorhanden 
sein konnen. Wurde bei dem betrachteten Beispiel eine 
Teilskalierungsschicht die Bits bestimmter Ordnung von zwei 
quantisierten Spektrallinien umfassen, so ware der 
Genauigkeitsgewinn pro Teilskalierungsschicht nicht mehr 
35 1,5 dB, sondern 3,0 dB. Allgemein gesagt wird die zweite 
Anzahl der quantisierten Spektralwerte, von denen Bits in 
der zweiten Teilskalierungsschicht vorhanden sind, so 
gewahlt, dali sie groJier oder gleich 1 und kleiner als die 
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Gesamtanzahl der quantisierten Spektralwerte in dem Band 
ist, wobei die zweite Anzahl von Spektralwerten ferner 
zumindest das Bit bestimmter Ordnung eines quantisierten 
Spektralwerts aufweist, der in der ersten Anzahl von 
5 quantisierten binaren Spektralwerten, deren Bits in der 
ersten Teilskalierungsschicht vorhanden sind, nicht 
vorhanden ist. 

Erf indungsgemaJi existieren verschiedene Moglichkeiten zur 
10 Auswahl, welcher Spektralwert fur die nachste 
Teilskalierungsschicht auszuwahlen ist. 1st die 
Mithorschwelle beispielsweise linienweise (z. B. genauer 
als in 6-dB-Schritten) dargestellt, so laJit sich im 
Codierer genau ermitteln, welche der m Spektrallinien 
15 bisher am ungenauesten ist. 

Ist die Mithorschwelle dagegen bandweise (z. B. in 6~dB- 
Schritten) dargestellt, so ist am Beginn der Codierung 
einer neuen Schicht, also beim Erzeugen einer 

20 Teilskalierungsschicht fur eine neue Bitschicht, jede 
Spektrallinie mit derselben Genauigkeit relativ zur 
Mithorschwelle ubertragen. In der Auswahl der 
Linienreihenf olge in den Teilschichten lassen sich 
allerdings die Werte der bis dahin ubertragenen 

25 Spektrallinien beriicksichtigen. Codiert man in den 
folgenden Teilschichten beispielsweise zuerst die 
Spektrallinien mit kleinen Spektralwerten, so ergibt sich 
eine genauere spektrale Formung des resultierenden 
Quantisierungsf ehlers . 

30 

Bei einem bevorzugten Ausf iihrungsbeispiel der vorliegenden 
Erfindung werden Teilskalierungsschichten unter Verwendung 
von psychoakustisch quantisierten Spektralwerten gebildet, 
wobei die bestimmte Ordnung der Bits, die in den 
35 Teilskalierungsschichten verarbeitet werden, iiber dem 
betrachteten Band, das m Spektrallinien. aufweist, konstant 
ist. Im Falle von psychoakustisch quantisierten binaren 
Spektralwerten mussen fur eine psychoakustisch transparente 
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Codierung samtliche Bits der quantisierten Spektralwerte 
iibertragen werden. In diesem Fall ist insbesondere bei den 
niederwertigen Bits der binaren quantisierten Spektralwerte 
eine feinere Skalierbarkeit von Vorteil, urn eine 
5 Decodierung mit langsam abnehmender Qualitat je nach Anzahl 
der berucksichtigten Teilskalierungsschichten zu 
ermoglichen. 

Bei einem alternativen Ausf uhrungsbeispiel der vorliegenden 
10 Erfindung sind die quantisierten Spektralwerte nicht unter 
Berucksichtigung psychoakustischer Gesichtspunkte 

quantisiert, sondern liegen im Rahman der Rechengenauigkeit 
eines Rechners vor der Quantisierung vor, Alternativ sind 
die quantisierten Spektralwerte unter Verwendung einer 
15 Integer-MDCT erzeugt worden, die in ,,Audio Coding Based on 
Integer Transforms'', 111; AES-Versammlung, New York, 2001, 
Geiger, Herre, Roller, Brandenburg, beschrieben ist. 

Die IntMDCT ist besonders giinstig, da sie die attraktiven 
20 Eigenschaf ten der MDCT hat, wie beispielsweise eine gute 
spektrale Darstellung des Audiosignals, eine kritische 
Abtastung und ein Blockuberlappung . Wie es ausgefiihrt wird, 
ist die IntMDCT eine verlustlose Transformation, d. h. 
Rundungen auf Integer-Werte wahrend der 

25 Vorwartstransformation konnen durch eine inverse 
Rundungsoperation bei der Riickwartstransf ormation 
berucksichtigt werden, so daJi keinerlei Rundungsf ehler 
auftreten. 

30 IntMDCT-Spektralwerte liegen daher verlustlos vor, d. h. 
sie wurden nicht unter Berucksichtigung psychoakustischer 
Gesichtspunkte quantisiert. 

Fur eine Skalierung hinsichtlich der psychoakustischen 
35 Maskierungsschwelle wird es bevorzugt, zumindest das 
hochstwertige Bit der psychoakustischen Maskierungsschwelle 
fur jeden Spektralwert bzw. fur jedes Band zu bestimmen und 
die bestimmte Ordnung der Bits, die in eine 
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Skalierungsschicht kommen sollen bzw. in eine 
Teilskalierungsschicht kommen sollen, nicht mehr absolut - 
wie bei den psychoakustisch quantisierten Spektralwerten - 
festzulegen, sondern relativ zum entsprechenden 
5 hochstwertigen Bit der psychoakustischen 

Maskierungsschwelle . Die bestimmte Ordnung fiir die Bits in 
einer Skalierungsschicht ist daher relativ zur 
psychoakustischen Maskierungsschwelle def iniert, 

beispielsweise dadurch, dali in einer Skalierungsschicht die 

10 Bits der Spektralwerte codiert werden sollen, die z. B. 
eine um 1 hohere Ordnung haben als das MSB der 
psychoakustischen Maskierungsschwelle fur den 

entsprechenden Spektralwert bzw. - bei einer bandweisen 
Bereitstellung der psychoakustischen Maskierungsschwelle - 

15 fiir das Band, in dem der Spektralwert liegt. Die bestimmte 
Ordnung zur Definition der Skalierungsschichten im Falle 
von Spektralwerten, die nicht unter Beriicksichtigung 
psychoakustischer Gesetze quantisiert sind, ist somit eine 
relative Ordnung bezogen auf das MSB der psychoakustischen 

20 Maskierungsschwelle, das fur den betreffenden Spektralwert 
einschlagig ist- 

GemaJi der vorliegenden Erfindung wird es bevorzugt, fur 
eine psychoakustisch transparente Codierung/Decodierung 

25 samtliche Bits der quantisierten Spektralwerte in einzelnen 
Skalierungsschichten oder Teilskalierungsschichten zu 
ubertragen, die die gleiche Ordnung wie das MSB der 
psychoakustischen Maskierungsschwelle haben oder deren 
Ordnung hoher als die Ordnung des MSB der psychoakustischen 

30 Maskierungsschwelle ist . 

Insbesondere bei der Definition der Skalierungsschicht, die 
die Bits der quantisierten Spektralwerte umfassen soli, die 
die gleiche Ordnung haben wie die hochstwertigen Bits der 
35 psychoakustischen Maskierungsschwelle, wird es bevorzugt, 
eine Einteilung in Teilskalierungsschichten durchzufuhren, 
um gewissermalien an der Grenze der Horbarkeit von Storungen 
eine bessere Genauigkeitsskalierung zu erreichen. Wird z. 



- 15 - 



B. der gesamte Frequenzbereich oder ein Teil des 
Frequenzbereichs in Bander von z. B. je vier Spektralwerten 
aufgeteilt und wird in einer Teilskalierungsschicht immer 
ein Spektralwert aller resultierenden Bander iibertragen, so 
5 kann mit jeder Teilskalierungsschicht eine 

Genauigkeitszunahme von 1,5 dB erreicht werden. 

Es sei darauf hingewiesen, dali die Genauigkeitsskalierung 
beliebig wahlbar ist, indem die Groiie der Bander 
10 eingestellt wird. Werden beispielsweise acht Spektralwerte 
in ein Band gruppiert und enthalt jede 
Teilskalierungsschicht nur das Bit von einem Spektralwert 
aus diesem Band, so wird eine Genauigkeitsskalierung von 
0,75 dB erreicht. 

15 

Ein Vorteil des erf indungsgemafien Konzepts der Unterteilung 
einer Skalierungsschicht in mehrere 

Teilskalierungsschichten, die jedoch unabhangig voneinander 
extrahierbar und decodierbar sind, besteht darin, dali es 

20 mit samtlichen bestehenden weiteren 

Skalierbarkeitsmoglichkeiten kompatibel ist . Beispielhaf t 
hierfur sei die Bandbreitenskalierung genannt,.bei der fur 
die gehorangepafite Codierung von Audiosignalen bei 
niedrigen Bitraten meist .eine Reduzierung der 

25 Audiobandbreite vorgenommen wird, um die verbleibenden 
Spektralwerte mit ausreichender Genauigkeit darstellen zu 
konnen. Diese z. B. Kanalabhangige Bandbreitenskalierung 
lalit sich auch im erf indungsgemaBen Kontext der Verwendung 
von Teilskalierungsschichten realisierten . Hierzu wird bei 

30 den ersten Schichten nur ein nach oben begrenzter 
Frequenzbereich berilcksichtigt und mit zunehmender 
Genauigkeit in den weiteren Schichten bzw. Teilschichten 
werden schrittweise weitere bisher nicht beriicksichtigte 
hohere Frequenzbereiche mitcodiert. 

35 

Ein weiterer Vorteil des erf indungsgemaJien Konzepts der 
Teilskalierungsschichten besteht darin, daJi es ebenfalls 
mit der kontextabhangigen arithmetischen Codierung 
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kompatibel ist, die auch bei MPEG-4 BSAC verwendet wird. 
MPEG-4 BSAC ist in ,,Coding of Audio-Visual Objects: Audio'\ 
International Standard 14496-3, 2. Auflage, ISO/IEC Moving 
Pictures Expert Group, ISO/IEC JTC1/SC2 9/WGll, 2001, 
5 beschrieben. 

Das erf indungsgemalie Konzept ist ferner dahingehend 
vorteilhaft, daB decodiererseitig eine beliebige 
Interpretation der quantisierten Werte vorgenommen werden 

10 kann. Werden nicht alle Bitschichten des Spektruitis 
tibertragen, so liegen im Decodierer fur jeden Spektralwert 
nur die hoherwertigen Bits vor. Aulierdem laBt sich bei der 
bei einem bevorzugten Ausf uhrungsbeispiel der vorliegenden 
Erfindung mitubertragenen Mithorschwelle und der Zahl der 

15 iibertragenen Bitschichten ermitteln, wie viele Bits dieses 
Spektralwerts nicht iibertragen wurden. Aus diesen Daten muli 
der Decodierer einen quantisierten Spektralwert 
rekonstruieren. Eine plausible Moglichkeit hierfur ware, 
die nichtiibertragenen Bits durch Nullen zu ersetzen. Damit 

20 fiihrt der QuantisierungsprozeJX durch Weglassen von 
Skalierungsschichten immer zu einer Abrundung zu kleineren 
Absolutwerten. Diese Art der Quantisierung fiihrt jedoch 
nicht zum kleinstmoglichen mittleren Quantisierungsfehler . 
Der mittlere Quantisierungsfehler lalit sich bei dieser Art 

25 der Quantisierung reduzieren, indem man alternative 
Decodiererrekonstruktionsstrategien einsetzt . 

Bevorzugte Ausf uhrungsbeispiele der vorliegenden Erfindung 
werden nachfolgend Bezug nehmend auf die beiliegenden 
30 Zeichnungen naher erlautert. Es zeigen: 

Fig. la ein Blockschaltbild eines erf indungsgemafien 
Codierers; 

35 Fig. lb eine schematische Darstellung eines skalierten 
codierten Signals mit Skalierungsschichten und 
Teil skalierungsschichten; 
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Fig. 2 eine Aufteilung eines Betragsspektrums in 
Bitschichten parallel zur Mithorschwelle; 

Fig. 3 eine schematische Darstellung der Aufteilung von 
5 Fig. 2 unter Beriicksichtigung des MSB der 

Maskierungsschwelle; 

Fig. 4 eine schematische Darstellung zur 

Veranschaulichung der Auswahl eines Spektralwerts 
10 fiir die nachste Teilskalierungsschicht bei 

kontinuierlich gegebener Mithorschwelle; 

Fig. 5 eine schematische Darstellung zur 

Veranschaulichung der Auswahl eines Spektralwerts 
15 fur eine Teilskalierungsschicht bei einer 

bandweisen Darstellung der Mithorschwelle; 

Fig. 6 ein detailliertes Blockschaltbild eines 
erf indungsgemafien Codierers; 

20 

Fig. 7 ein Blockschaltbild eines erf indungsgemaiien 
Decodierers mit IntMDCT; 

Fig. 8 ein Blockschaltbild eines bekannten BSAC- 
25 Codierers; 

Fig. 9 ein Blockschaltbild eines bekannten BSAC- 
Decodierers; 

30 Fig. 10a ein schematisches Blockschaltbild eines bekannten 
Codierers mit MDCT und 50-Prozent-Uberlappung; 

Fig. 10b ein Blockschaltbild eines bekannten Decodierers 
zum Decodieren der durch Fig. 10a erzeugten 
35 Werte; 

Fig. 11 ein Blockschaltbild einer bevorzugten Einrichtung 
zum Verarbeiten von zeitdiskreten 
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Audioabtastwerten, urn ganzzahlige Werte zu 
erhalten, aus denen ganzzahlige Spektralwerte 
mittelbar sind; 



5 Fig. 12 eine schematische Darstellung der Zerlegung einer 
MDCT und einer inversen MDCT in Givens-Rotationen 
und zwei DCT-IV-Operationen; und 

Fig. 13 eine Darstellung zur Veranschaulichung der 
10 Zerlegung der MDCT mit 5d-Prozent-Uberlappung in 

Rotationen und DCT-IV-Operationen. 



Fig. la zeigt ein schematisches Blockschaltbild einer 
Vorrichtung zum skalierbaren Codieren eines Spektrums eines 

15 Signals, das Audio- und/oder Videoinf ormationen umfaftt, 
wobei das Spektrum binare Spektralwerte aufweist, die in 
Bandern gruppiert sind. Ein Band von binaren Spektralwerten 
des Audio- und/oder Videosignals wird in einen Eingang 100 
der Vorrichtung zum skalierbaren Codieren von Fig. la 

20 eingespeist. Die Gruppierung von binaren Spektralwerten in 
Bander kann beliebig erfolgen. Wie es ausgefiihrt worden 
ist, basiert ' die vorliegende Erfindung darauf, dali 
Verdeckungsef f ekte im Frequenzbereich bandweise und nicht 
spetralwertweise auftreten. Aus diesem Grund wird es 

25 bevorzugt, die Gruppierung der binaren Spektralwerte in 
Bander unter Verwendung z. B. der Frequenzgruppen (critical 
bands) durchzuf lihren, oder unter Verwendung von Bandern, 
die kleiner sind als die Frequenzgruppen, d. h. die weniger 
Spektralwerte umfassen, als eine Frequenzgruppe umfalit, so 

30 dali eine psychoakustische oder psychooptische 
Frequenzgruppe in z. B. zwei oder mehr Bandern gruppiert 
wird. 



Ein Band von binaren Spektralwerten des Audio- und/oder 
35 Videosignals wird in eine Einrichtung 102 zum Erzeugen der 
Teilskalierungsschichten eingespeist, wobei die Einrichtung 
102 zum Erzeugen der Teilskalierungsschichten eine erste 
Teilskalierungsschicht, eine zweite Teilskalierungsschicht 
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und gegebenenf alls weitere Teilskalierungsschichten 
erzeugt. Die Teilskalierungsschichten werden an 
Ausgangsleitungen 104a, 104b, .... aus der Einrichtung 102 
ausgegeben und einer Einrichtung 106 zum Bilden des 
5 codierten Signals ubermittelt, wobei die Einrichtung 106 
zum Bilden des codierten Signals ausgebildet ist, um die 
erste Teilskalierungsschicht (TSS) und die zweite 
Teilskalierungsschicht* so in das codierte Signal an einem 
Ausgang 108 der in Fig. la gezeigten Vorrichtung 
10 auf zunehmen, daJi die erste und die zweite 
Teilskalierungsschicht getrennt voneinander decodierbar 
sind. 

Die Einrichtung 102 zum Erzeugen der 

15 Teilskalierungsschichten arbeitet unter Verwendung von Bits 
bestimmter Ordnung einer ersten Anzahl der binaren 
Spektralwerte in einem Band, wobei die erste Anzahl grofter 
Oder gleich 1 ist und kleiner als eine Gesamtanzahl der 
binaren Spektralwerte in dem Band ist. Zum Erzeugen der 

20 zweiten Teilskalierungsschicht verwendet die Einrichtung 
102 Bits der bestimmten Ordnung einer zweiten Anzahl der 
binaren Spektralwerte, wobei die zweite Anzahl der binaren 
Spektralwerte so gewahlt wird, daii sie groiier oder gleich 1 
und kleiner als die Gesamtanzahl der binaren Spektralwerte 

25 in dem Band ist, und wobei die zweite Anzahl der binaren 
Spektralwerte so bestimmt wird, daB sie zumindest einen 
binaren Spektralwert aufweist, der in der ersten Anzahl von 
binaren Spektralwerten nicht enthalten ist. Dies bedeutet, 
dali jede Teilskalierungsschicht, wenn sie decodiert worden 

30 ist, dazu fiihrt, dali wenigstens ein Spektralwert des 
("betrachteten Bandes im Decodierer mit einer hoheren 
Genauigkeit vorliegt, als wenn diese Teilskalierungsschicht 
nicht in Betracht gezogen worden ware- 

35 Fig. lb zeigt ein skaliertes codiertes Signal als 
schematische Bitstromdarstellung. Der Bitstrom, der das 
skalierte codierte Signal darstellt, umfaiit zunachst 
Seiteninf ormationen 110, die derart gestaltet sein konnen, 
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wie es durch den BSAC-Standard vorgegeben ist. Der Bitstrom 
umfalit dann eine erste Skalierungsschicht 111, eine zweite 
Skalierungsschicht 112, eine dritte Skalierungsschicht 113, 
eine vierte Skalierungsschicht 114, eine funfte 
5 Skalierungsschicht 115, . . . Lediglich beispielhaft ist bei 
dem in Fig. lb gezeigten skalierten/codierten Signal die 
dritte Skalierungsschicht 113 in vier 

Teilskalierungsschichten (T.-Sk.-S) unterteilt, die mit 
113a - 113d bezeichnet sind. Dariiber hinaus ist die funfte 
10 Skalierungsschicht lediglich beispielhaft ebenfalls in 
Teilskalierungsschichten unterteilt, und zwar in die 
Teilskalierungsschichten 115a, 115b, 115c, . . . 

Die erste Skalierungsschicht 111 umfalit beispielsweise die 

15 Bits hochster Ordnung - entweder absolut gesehen oder, wie 
es ausgefiihrt worden ist, relativ zur psychoakustischen 
Maskierungsschwelle - der Spektralwerte des Spektrums des 
Audio- und/oder Videosignals . Die zweite Skalierungsschicht 
112 umfalit ebenfalls als komplette Skalierungsschicht die 

20 Bits der Spektralwerte mit einer urn 1 niedrigeren Ordnung. 
Die dritte Skalierungsschicht umfalit insgesamt gesehen die 
Bits einer urn 2 niedrigeren Ordnung der Spektralwerte, 
jedoch nicht als eine komplette Skalierungsschicht, die nur 
komplett decodiert warden kann, sondern - zur feineren 

25 Genauigkeitsskalierung - aufgeteilt in vier voneinander 
getrennt decodierbare Teilskalierungsschichten 113a, 113b, 
113c, 113d.' Bei dem in Fig. lb dargestellten Beispiel wird 
das gesamte Spektrum, also die Gesamtanzahl der 
Spektralwerte, in Bandern von je vier Spektralwerten 

30 aufgeteilt. Die erste Teilskalierungsschicht 113a umfalit 
dann die Bits der um 3 niedrigeren Ordnung von jeweils 
einem Spektralwert in einem der Bander. Die zweite 
Teilskalierungsschicht umfalit analog die Bits derselben 
Ordnung, jedoch von anderen Spektralwerten in den einzelnen 

35 Bandern. Die dritte Teilskalierungsschicht 113c umfalit 
wiederum die Bits derselben Ordnung, jedoch wieder von 
anderen Spektralwerten in einem Band. Dasselbe gilt fiir die 
vierte Teilskalierungsschicht. Wurden Bander gewahlt, die 
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jeweils vier Spektralwerte umfassen, so hat jede 
Teilskalierungsschicht ein Bit eines Spektralwerts fur 
jedes Band. Dies bedeutet, daB jede Teilskalierungsschicht 
bei dem in Fig. lb dargestellten Beispiel Inf ormationen 
5 liber ein Viertel der Anzahl von Bits aufweist, wie eine 
komplette Skalierungsschicht, wie z. B. die erste 
Skalierungsschicht 111 Oder die zweite Skalierungsschicht 
112. 

10 Im nachf olgenden wird anhand von Fig. 2 eine Aufteilung des 
Betragsspektrums in Bitschichten parallel zur 
Mithorschwelle dargestellt. Die in Fig. 2 durch ihre 
Bitmuster dargestellten Spektralwerte sind Spektralwerte, 
wie sie beispielsweise durch die IntMDCT erhalten werden, 

15 auf die spater eingegangen wird. Die in Fig. 2 anhand ihres 
Bitmusters dargestellten binaren Spektralwerte konnen 
jedoch auch die . Ergebnisse eines beliebigen Zeitbereich- 
/Frequenzbereichumsetzungsalgorithmus , wie z. B, einer FFT, 
sein, und zwar dargestellt als binare Ganzzahlen 

20 prinzipiell beliebiger GroJie. Die in Fig. 2 dargestellten 
binaren Spektralwerte sind somit noch nicht unter 
Verwendung psychoakustischer Gesichtspunkte quant is iert 
worden. 

25 In Fig. 2 ist ferner die psychoakustische Mithorschwelle 
als durchgezogene kontinuierliche Linie eingezeichnet , die 
mit 0 dB bezeichnet ist. • Durch den Verlauf der 
Mithorschwelle im Spektrum ergeben sich - parallel zur 
Mithorschwelle - verlaufende Bitschichten, wobei die 

30 Zugehorigkeit eines Bits zu einer Bitschicht die 
psychoakustische bzw. psychooptische Relevanz dieses Bits 
widerspiegelt . So ist aus Fig. 2 beispielsweise zu ersehen, 
daiJ der mit „1'' bezeichnete Spektralwert Bits aufweist, die 
zwei Bitschichten oberhalb der Mithorschwelle belegen. 

35 Dagegen ist der noch groBere Spektralwert 5 dadurch 
ausgezeichnet, dafi er hoherwertige Bits aufweist, die drei 
Bitschichten oberhalb der Mithorschwelle belegen. Die 
Spektralwerte 2, 3 und 4 dagegen umfassen lediglich Bits, 
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die in einer Bitschicht unterhalb der Mithorschwelle 
liegen. 

Im Hinblick auf die psychoakustische Transparenz, also auf 
5 die Horbarkeit von Storungen aufgrund einer Quantisierung 
bzw. aufgrund eines „Weglassens^^ von niederwertigen Bits 
wird die Mithorschwelle als 0-dB-Linie bezeichnet. Die 
psychoakustisch signif ikanteste Bitschicht, und damit die 
erste Skalierungsschicht bei dem in Fig. 2 gezeigten Bei- 
10 spiel, ist die Bitschicht zwischen 12 dB und 18 dB. Hier 
liefert lediglich der Spektralwert mit der Nr. 5 einen Bei- 
trag. Die erste Skalierungsschicht 111 von Fig. lb wurde 
daher bei dem in Fig. 2 gezeigten Beispiel lediglich Infor- 
mationen uber den Spektralwert 5 umfassen. 

15 

Die zweite Bitschicht zwischen 6 dB und 12 dB, also die 
zweite Skalierungsschicht 112 von Fig. 2, umfaJit lediglich 
Inf ormationen uber Bits des ersten Spektralwerts und des 
fiinften Spektralwerts, jedoch keine Inf ormationen uber die 
20 anderen Spektralwerte, da deren MSB in niedrigeren 
Bitschichten liegen . 

Die dritte Bitschicht 113 bei dem in Fig. 2 gezeigten 
Beispiel umfaJit die Bits zwischen der 0-dB-Linie und der 

25 +6-dB-Linie in Fig. 2 und umfalit nunmehr Inf ormationen liber 
die sechste, die fiinfte und die erste Spektrallinie, jedoch 
immer noch keine Inf ormationen liber die anderen 
Spektralwerte. Wlirde nunmehr die dritte Skalierungsschicht 
bei dem in Fig. 2 gezeigten Beispiel als eine komplette 

30 Skalierungsschicht verarbeitet werden, so wlirde die 
Genauigkeitsabstuf ung von der zweiten Skalierungsschicht 
zur dritten Skalierungsschicht sehr stark sein, 
dahingehend, dali eine Decodierung lediglich der ersten und 
der zweiten Skalierungsschicht - ohne die dritte 

35 Skalierungsschicht - zu starken horbaren Storungen fiihren 
wlirde. Dagegen wlirde eine Berlicksichtigung der dritten 
Skalierungsschicht zu nahezu keinen horbaren Storungen mehr 
fiihren. Eine Abstufung in diesem Grenzbereich wird 
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erf indungsgemali dadurch erreicht, dali 

Teilskalierungsschichten der dritten S kalie rungs schicht 
gebildet werden, wobei bei der in Fig. 2 gezeigten 
Situation trotz einer Bandauf teilung beispielsweise in m = 
5 5 lediglich zwei Teilskalierungsschichten geniigen wurden, 
wobei eine erste Teilskalierungsschicht das Bit zweiter 
Ordnung des Spektralwerts Nr. 1 umfassen wiirde, wahrend 
eine zweite Teilskalierungsschicht das Bit dritter Ordnung 
des Spektralwerts Nr. 5 umfassen wiirde, wobei diese Bits in 
10 den Teilskalierungsschichten fiir den Spektralwert Nr. 1 und 
den Spektralwert Nr. 5 dieselbe Ordnung relativ zu den 
niederstwertigen Bits der Maskierungsschwelle haben. 

Nachfolgend wird zur Verdeutlichung dieses Sachverhalts auf 
15 Fig. 3 Bezug genoiranen. Fig. 3 zeigt eine detailliertere 
Darstellung der Situation in Fig. 2, wobei nun jedoch die 
Mithorschwelle nicht mehr, wie in Fig. 2 dargestellt, 
anhand ihres tatsachlichen Wertes eingetragen ist, sondern 
in Fig. 3 bezuglich ihres hochstwertigen Bits dargestellt 
20 ist. 

Erf indungsgemali wurde herausgefunden, dali fiir eine 
psychoakustische Transparenz, um alle ungiinstigen Falle 
abzufangen, so viele Bits eines quantisierten Spektralwerts 
ubertragen werden miissen, dali die Ordnung des zuletzt 

25 libertragenen Bits gleich der Ordnung des hochstwertigen 
Bits der Maskierungsschwelle, die diesem Spektralwert 
zugeordnet ist, entspricht. In anderen Worten ausgedriickt 
bedeutet dies, daJi von einem Spektralwert - sofern sie 
existieren - alle Bits ubertragen werden mussen, die eine 

30 hohere Ordnung haben als das MSB der Maskierungsschwelle, 
die diesem Spektralwert zugeordnet ist, und dali ferner auch 
das Bit des Spektralwerts, das dieselbe Ordnung hat wie das 
MSB der Maskierungsschwelle, zu ubertragen ist. 

35 Die erf indungsgemafie Genauigkeitsskalierung ist besonders 
um die psychoakustische Maskierungsschwelle herum 
interessant, also fiir die Bits von Spektralwerten, die 
dieselbe Ordnung haben wie das MSB der Maskierungsschwelle, 
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das diesem Spektralwert zugeordnet ist. Diese Bits sind bei 
dem in Fig. 3 gezeigten Diagrainm als fett umrandete 
Kastchen eingezeichnet . 

5 Allgemein gesagt ist in Fig. 3 in vertikaler Richtung die 
Bitordnung eingezeichnet, und zwar von MSB uber MSB - 1, 
MSB - 2, MSB - 3, LSB + 2, LSB + 1 zu LSB eingezeichnet - 
Der Ausdruck „MSB'' in Fig. 3 bezeichnet jedoch nicht das 
MSB eines bestimmten Spektralwerts oder einer 
10 psychoakustischen Maskierungsschwelle, sondern das absolute 
MSB, also die maximal darstellbare Zweierpotenz im binaren 
System . 

Dagegen ist in den in Fig. 3 dargestellten dick umrandeten 
Kastchen das MSB der Mithorschwelle fiir einen Spektralwert 

15 1 bis 6 dargestellt. Insbesondere ist jedes Kastchen durch 
eine gestrichelte Diagonale aufgeteilt, wobei oberhalb der 
Diagonale ein Bit eines Spektralwerts steht, wahrend 
unterhalb der Diagonale ein Bit der Maskierungsschwelle fiir 
diesen Spektralwert steht. Mit „1^' bezeichnete Bits haben 

20 den Wert „1". Mit „0" bezeichnete Bits haben den Wert „0''. 
Schliefllich haben mit „x'' gekennzeichnete Bits den Wert „0" 
Oder „1^'. Die erste Skalierungsschicht bzw. erste 
Bitschicht bei dem in Fig. 3 gezeigten Beispiel umfalJt 
somit das Bit MSB des Spektralwerts 5, das Bit ,,MSB - 1'' 

25 des Spektralwerts 4, das Bit „MSB - 2'' des Spektralwerts 3, 
das Bit „MSB - 1'' des Spektralwerts 2 und das Bit MSB des 
Spektralwerts 1. Die bestimmte Ordnung der Bits in der 
ersten Skalierungsschicht' ist daher um 3 hoher als die 
Ordnung des Bits, in dem das MSB der Maskierungsschwelle 

30 liegt. 

Die zweite Skalierungsschicht wiirde dann die Bits (MSB - 
1), (MSB - 2), (MSB - 3), (MSB - 2) und (MSB - 1) fur die 
Spektralwerte 5, 4, 3, 2 und 1 umfassen. Die dritte 
Skalierungsschicht wurde dann die Bits (MSB - 2), (MSB - 
35 3), (LSB + 2), (MSB - 3) und (MSB - 2) wieder fur die 
Spektralwerte 5, 4, 3, 2 und 1 umfassen. Die vierte 
Skalierungsschicht, deren Aufteilung in 

Teilskalierungsschichten bevorzugt wird, wurde dann die 
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dick umrandeten Bits aus Fig. 3 umfassen, also (MSB - 3), 
(LSB + 2), (LSB + 1), (LSB + 2) und (MSB - 3) wieder fur 
die Spektralwerte 5, A, 3, 2 und 1 umfassen. Eine 
tibertragung der ersten, zweiten, dritten und vierten 
5 Skalierungsschicht fiihrt zu psychoakustischer Transparenz, 
wahrend, wenn die vierte Skalierungsschicht weggelassen 
warden wiirde, eine GenauigkeitseinbuBe von 6 dB erhalten 
wird- 

10 Erf indungsgemali wird daher die vierte Skalierungsschicht in 
z. B. fiinf Teilskalierungsschichten aufgeteilt, wobei in 
jeder Teilskalierungsschicht ein Spektralwertbit fur einen 
Spektralwert in dem fiinf Spektralwerte umfassenden Band 
vorgesehen sein wird. 

15 

Jede Teilskalierungsschicht liefert somit eine 
Genauigkeitszunahme von 6 dB/ (m = 5) = 1,2 dB. 

Damit bei dem in Fig. 3 dargestellten Ausf iihrungsbeispiel 
20 der Verlauf der Bitschichten im Decodierer nachvollzogen 
werden kann, wird die Mithorschwelle bzw. der Verlauf der 
gerade noch psychoakustisch signif ikanten Bits, also der 
MSBs der Mithorschwelle, zum Decodierer beispielsweise 
innerhalb der Seiteninf ormationen 110 von Fig. lb 
25 ubertragen. Hierfiir werden zwei Alternativen bevorzugt. 
Diese sind die linienweise Darstellung und die bandweise 
Darstellung. 

Bei einer linienweisen Darstellung lafi>t sich die 
Mithorschwelle aufgrund ihres kontinuierlichen Verlaufs 
30 effizient durch die Frequenzantwort eines FIR-Filters mit 
wenigen Koef f izienten oder durch polynominale Interpolation 
darstellen. Hierbei entsteht also fur jeden Frequenzwert 
ein eigener Wert der Mithorschwelle. 

35 Bei der bandweisen Darstellung wird darauf Bezug genommen, 
daJi die psychoakustischen Verdeckungsef fekte, die der 
Mithorschwelle zugrunde liegen, bandweise ausgedrlickt 
werden konnen, wobei die Bandeinteilung der Bark-Skala 
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folgen kann und vorzugsweise eine Verfeinerung der Bark- 
Skala darstellt. Diese bandweise Darstellung wird auch bei 
bekannten Verfahren zur gehorangepaBten Audiocodierung, wie 
z. B. MPEG-'2 AAC, verwendet- Fiir die Darstellung der 
5 Mithorschwelle reicht es somit aus, einen Wert pro Band zu 
ubertragen. 

Wie es bereits ausgefuhrt worden ist, stellen die Fig. 2 
und 3 die Definition von Bitschichten gleicher 

10 psychoakustischer Signifikanz beispielsweise im IntMDCT- 
Spektrum dar. Die Bits werden, wie es ausgefuhrt worden 
ist, beginnend mit der hochsten Schicht, Schicht fiir 
Schicht codiert und ubertragen. Beim Erreichen der 
Bitschicht, die der Mithorschwelle entspricht (den in Fig. 

15 3 fett umrandeten Bits)^ ist das ubertragene Signal 
psychoakustisch transparent. Die Ubertragung weiterer 
Bitschichten, also von Bits unterhalb der in Fig. 3 
dargestellten dick umrandeten Kasten, erhoht die 
Genauigkeit und damit den Sicherheitsabstand zur 

20 Mithorschwelle. Werden schlielilich alle zur Verfiigung 
stehenden Bits ubertragen, so arbeitet das Verfahren 
verlustlos- Wie es ausgefuhrt worden ist, wird zur Redun- 
danzreduktion der iibertragenen Bits vorzugsweise eine 
arithmetische Codierung eingesetzt . 

25 Die Verfeinerung der Genauigkeitsskalierung aufgrund der 
erf indungsgemaJi verwendeten Tells kalierungsschichten, die 
im Decodierer getrennt voneinander verwertbar sind, ist 
insbesondere im Bereich oberhalb der Mithorschwelle, auf 
der Mithorschwelle und unterhalb der Mithorschwelle 

30 (bezogen auf die Ordnung des MSB der Mithorschwelle) von 
besonderem Vorteil. Ohne Genauigkeitsskalierung ergibt sich 
bei einer schichtweisen Ubertragung der Bits des IntMDCT- 
Spektrums eine Erhohung der Genauigkeit urn 6 dB. Beachtet 
man jedoch, dali zumindest bei rauschartigen Signalen die 

|35 Mithorschwelle nur etwa 6 dB unterhalb des Signals liegt, 
so sieht man, daft eine Skalierung der Genauigkeit in 6-dB- 
Schritten fiir eine effiziente Codierung der gerade noch 
horbaren Signalanteile oftmals zu grob ist. 
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Die im Vorstehenden beschriebene Aufteilung in 1,5-dB- 
Schritte^ wenn Bander mit vier Spektralwerten verwendet 
werden, und in jeder Teilskalierungsschicht ein einziger 
5 Spektralwert angeordnet ist, oder wenn beispielsweise 
Bander mit acht Spektralwerten verwendet werden und in 
jeder Teilskalierungsschicht zwei Spektralwerte 

beriicksichtigt werden, soli eine Entsprechung zur Anpassung 
der Genauigkeit in 1, 5-dB~Schritten sein, die auch bei 
10 MPEG-2 AAC vorliegt. Hier erfolgt eine bandweise adaptive 
Quantisierung von kontinuierlichen Spektralwerten mit Hilfe 
von Skalierungsf aktoren der Form 2°'^^'^/ wobei n ganzzahlige 
Werte annimmt . Wird n um 1 erhoht, so andert sich bei MPEG- 
2 AAC die Genauigkeit der Quantisierung um 1,5 dB. 

15 

Das erf indungsgemalie Konzept liefert diese Verfeinerung der 
Genauigkeitsskalierung, indem die Bitschichten in 
Teilskalierungsschichten unterteilt werden, wobei m 
Teilschichten einer Schicht erhalten werden, indem je m 

20 benachbarte Linien auf die m Teilschichten aufgeteilt 
werden. Mit jeder neu libertragenen Teilschicht erhoht sich 
dann die Genauigkeit um 6/m dB. Fur m = 4 ist also 
beispielsweise eine Abstufung in 1, 5-dB-Schritten moglich. 
Im Gegensatz zur oben beschriebenen Quantisierung beim 

25 Verfahren iyiPEG-2 AAC wird jedoch beim erf indungsgemaJien 
Konzept die Genauigkeit in jeder Teilschicht fur nur eine 
von m Spektrallinien erhoht. Da die psychoakustischen 
Verdeckungsef f ekte im Frequenzbereich bandweise und nicht 
linienweise auftreten, erhalt man durch die Erhohung der 

30 Genauigkeit einer Spektrallinie denselben 

Genauigkeitsgewinn pro Band wie bei der gleichmaliigen 
Erhohung der Genauigkeit im ganzen Band. 

Nachfolgend wird anhand der Fig. 4 und 5 auf bevorzugte 
Arten und Weisen zum Auswahlen eingegangen, welche der m 
35 Spektrallinien in der nachsten Teilschicht verfeinert wird. 

Fig. 4 zeigt einen Fall, bei dem die Mithorschwelle 
linienweise dargestellt ist. Die Mithorschwelle ist als 
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durchgezogene Linie eingezeichnet . Dariiber ist durch ein 
„Kreuz'' das MSB der Mithorschwelle eingezeichnet. Die 
Decodierung aller oberhalb liegenden in Fig. 4 nicht 
dargestellten Skalierungsschichten ist bereits 

5 abgeschlossen, so daft die Spektralwerte 1, 2, 3 und 4 mit 
einer durch ,,0^^ dargestellten Genauigkeit vorliegen. Das 
mit ,,0'' dargestellte bisher iibertragene Bit stellt daher 
die Genauigkeit der Spektrallinie im Decodierer dar. Durch 
einen Vergleich des Werts des bisher verarbeiteten 

10 Spektralwerts im Codierer mit dem Wert der Mithorschwelle 
fur diesen Spektralwert ergibt sich unmittelbar, welcher 
Spektralwert bisher am ungenauesten iibertragen worden ist. 
Bei dem in Fig. 4 gezeigten Beispiel ist dies, wie es aus 
Fig. 4 ohne weiteres ersichtlich ist, der Spektralwert 2. 

15 Die erste Teilskalierungsschicht wird daher das nachste Bit 
des Spektralwerts . Nr . 2 erhalten. 

Der nachste Spektralwert fiir die zweite 

Teilskalierungsschicht ist der Spektralwert Nr. 4. Dann 
20 durfte der Spektralwert Nr. 1 fiir die dritte 
Teilskalierungsschicht folgen und schlieftlich der 
Spektralwert Nr. 3 fiir die vierte Teilskalierungsschicht. 

Das nachste zu codierende Bit wird also der Frequenzlinie 
25 mit der groftten Differenz zwischen der Genauigkeit des 
bisher verarbeiteten Spektralwerts und der Mithorschwelle 
bestimmt . 

Es sei darauf hingewiesen, daft dieser Vorgang im Decodierer 
30 umgekehrt warden kann, derart, daft der Decodierer in der 
Lage ist, ohne zusatzliche Seiteninf ormationen 
herauszuf inden, welcher Spektralwert durch die nachste zu 
decodierende Teilskalierungsschicht welter verfeinert wird, 
solange der Decodierer den kontinuierlichen Verlauf der 
35 psychoakustischen Maskierungsschwelle kennt. 

Fig. 5 zeigt den Fall der bandweisen Darstellung der 
Mithorschwelle. Aus Fig. 5 ergibt sich, daft die Bits der 
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Spektralwerte 2, 3, 4 als nachste zu verarbeitende 
Teilskalierungsschichten in Betracht kommen, da sie bisher 
im Vergleich zur Mithorschwelle am weitesten von derselben 
beabstandet sind. Dagegen liegt der Wert des Spektralwerts 
5 1 bereits nahe auf der Mithorschwelle, so daii der 
Spektralwert 1 nicht unbedingt noch verfeinert werden muB, 
sehr wohl aber die Spektralwerte 2, 3 und 4. 

Prinzipiell konnte jeder der Spektralwerte 2, 3, 4 in der 
10 nachsten Teilskalierungsschicht beriicksichtigt werden. Ein 
Noise-Shaping ist jedoch dadurch erreichbar, daJi der 
absolute Wert der Spektralwerte 2, 3 und 4, wie sie bereits 
im Codierer verarbeitet worden sind bzw. im Decodierer 
verarbeitet worden sind, berucksichtigt wird. Stellt sich 
15 beispielsweise heraus, dafi fur den Spektralwert Nr. 2 
bereits z. B. sechs hoherwertigere Bits iibertragen worden 
sind, was darauf hinweist, dali der Spektralwert mit der Nr. 

2 sehr groI2> ist, so bedeutet dies, relativ gesehen, daI5 
dieser Spektralwert bereits ziemlich genau dargestellt ist. 

20 Wird dagegen festgestellt, dafi der Spektralwert mit der Nr. 

3 ein kleiner Spektralwert ist, dahingehend, dafi lediglich 
z. B. nur ein einziges hoherwertiges Bit iibertragen worden 
ist, so wird, wie es erf indungsgemaii bevorzugt ist, 
zunachst den Spektralwert mit der Nr. 3 in einer 

25 Teilskalierungsschicht zu verarbeiten und dann erst den 
Spektralwert Nr. 2. Diese Erkenntnis basiert darauf, dafi 
davon ausgegangen wird, daft die relative Genauigkeit fiir 
den Horeindruck wesentlicher ist als die absolute 
Genauigkeit. 

30 Fig. 6 zeigt ein insgesamtes Blockschaltbild eines 
erf indungsgemaJien Codierers. Das Zeitsignal wird an einem 
Eingang 600 in den Codierer eingespeist und z. B. mittels 
einer IntMDCT 602 in den Frequenzbereich umgesetzt. 
Parallel hierzu arbeitet ein psychoakustisches Modell 84, 

35 das prinzipiell denselben Aufbau haben kann wie das 
psychoakustische Modell 84, das in Fig. 8 dargestellt ist. 
Die Maskierungsschwelle, die durch das psychoakustische 
Modell 84 berechnet wird, wird nun jedoch nicht, wie in 
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Fig. 8, zum Quantisieren verwendet, sondern zum Definieren 
604 von Skalierungsschichten. Insbesondere liefert bei 
einem bevorzugten Ausfiihrungsbeispiel der vorliegenden 
Erfindung die Einrichtung 84 das MSB der 
5 Maskierungsschwelle entweder pro Spektralwert Oder pro 
Band, um gewissermaJien die in Fig. 3 dargestellten ,,dick 
umrandeten'^ Kasten zu bestimmen. Die Einrichtung 604 
definiert dann Skalierungsschichten relativ zu der Ordnung 
der MSBs der Maskierungsschwelle (der dicken Kasten in Fig. 
10 3) . 

Die Einrichtung 604 zum Definieren von Skalierungsschichten 
steuert die Einrichtung 102 zum Erzeugen von 
Teilskalierungsschichten bzw. zum Erzeugen von 

15 Skalierungsschichten, wenn sowohl Skalierungsschichten als 
auch Teilskalierungsschichten eingesetzt werden sollen. Bei 
dem in Fig. 3 gezeigten Ausfiihrungsbeispiel wiirde die 
Einrichtung 102 derart arbeiten, daB sie zunachst drei 
komplette Skalierungsschichten erzeugt und einer 

20 Einrichtung 606 zur arithmetischen Codierung zufuhrt und 
dann fiir die vierte Skalierungsschicht , die die Bits der 
Spektralwerte betrifft, deren Ordnung gleich der Ordnung 
der MSBs der Maskierungsschwelle ist, in eine bestimmte 
Anzahl von Teilskalierungsschichten aufzuteilen. Nach der 

25 arithmetischen Codierung der Teilskalierungsschichten 
werden die Skalierungsschichten und die 

Teilskalierungsschichten in einem Bitstrom durch eine 
Bitstrombildungseinrichtung 608 erzeugt, um ein 
skaliertes/codiertes Signal zu erhalten, das prinzipiell 

30 den in Fig. lb gezeigten Aufbau haben kann. 

Das skalierte/codierte Signal wird in einen Eingang 700 
eines in Fig. 7 gezeigten Decodierers eingespeist, wobei 
eine Einrichtung 702 den in Fig. lb gezeigten Bitstrom 
def ormatieren wird, um die Seiteninf ormationen von den 

35 Skalierungsschichten zu trennen etc. Eine Extraktions- 
/Decodierungseinrichtung 704 fiihrt dann eine arithmetische 
Codierung der Skalierungsschichten und der 

Teilskalierungsschichten nacheinander durch, so daJi sich in 
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einem decodiererseitigen, in Fig. 7 nicht gezeigten 
Speicher nach und nach die Bitmuster der einzelnen 
Spektralwerte aufbauen. 

5 Je nach Anzahl der iibertragenen Skalierungsschichten bzw. 
je nach Steuersignal an einem Steuereingang in der 
Einrichtung 704 hort der Decodierer irgendwann damit auf, 
weitere Skalierungsschichten oder Teilskalierungsschichten 
zu decodieren. Wurden im Bitstrom samtliche codiererseitig 

10 erzeugten Skalierungsschichten und Teilskalierungsschichten 
iibertragen und' decodiert, so hat eine verlustlose 
Codierung/Ubertragung/Decodierung stattgefunden, und der 
Decodierer mufii keine Interpretation von quantisierten 
Werten durchfuhren. Die erhaltenen Spektralwerte nach 

15 verlustloser oder nahezu verlustloser 

Codierung/tibertragung/Decodierung warden einer 

Rucktransf ormationseinrichtung 706 zugefiihrt, die 
beispielsweise eine inverse IntMDCT • (IntMDCT""^) durchfiihrt, 
urn an einem Ausgang 7 08 ein decodiertes Signal zu erhalten. 

20 Wurden beispielsweise aufgrund des Obertragungskanals 
bestimmte Skalierungsschichten oder auch 

Teilskalierungsschichten abgeschnitten oder war der 
Decodierer aufgrund seines Aufbaus nicht in der Lage, alle 
Skalierungsschichten oder Teilskalierungsschichten zu 

25 verarbeiten, oder wurde die Einrichtung 7 04 derart 
gesteuert, um nur eine bestiirante Anzahl von 
Skalierungsschichten bzw . Teilskalierungsschichten zu 
verarbeiten, so flihrt der erf indungsgemalie Decodierer eine 
Interpretation der bisher vorliegenden 

30 Spektralwertebitmuster durch. Werden nicht alle 
Bitschichten des Spektrums iibertragen^ so liegen im 
Datediefenntnacanitder f uMith9Bdehwel£g)ektindlw(?irFtr ZbItI dia? 
IhahgewamtigmnDBibdieuer fiir den verlustlosen Fall erzeugten 
bzw. erzeugbaren Bitschichten ermittelt der Decodierer 

35 nunmehr, wie viele Bitschichten - und damit wie viele Bits 
- fiir jeden einzelnen Spektralwert nicht iibertragen worden 
sind. Aus diesen Daten konstruiert der Decodierer einen 
quantisierten Spektralwert. Die einfachste Losung hierfur 
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besteht darin, die nichtubertragenen Bits durch Nullen zu 
ersetzen. In diesem Fall wlirde der Quantisierungsprozeli 
iininer zu einer Abrundung zu kleineren Absolutwerten fiihren. 

5 Erf indungsgemali wird es jedoch bevorzugt, den mittleren 
Quantisierungsfehler so klein als moglich zu halten. Dies 
wird erreicht, indem ein sogenannter ^Uniform Midrise 
Quantizer^^ verwendet wird, wie er in N.S. Jayant, P. Noll: 
,,Digital coding of waveforms'", Prentice-Hall, 1984, 

10 . beschrieben ist. Dieser Quantisierer laBt das bei der 
Quant isierung verwendete Quant isierungsintervall 

unverandert, verschiebt aber den quantisierten Wert, also 
den Reprasentanten des Quantisierungsintervalls und damit 
die Interpretation der iibertragenen Bits urn einen gewissen 

15 Wert. Eine Verschiebung zur Mitte des 

Quantisierungsintervalls wird beispielsweise dann erreicht, 
wenn fur die fehlenden Bits das Bitmuster „1 0 0 0 . . . 
eingesetzt wird. Allgemein wird es bevorzugt, fiir die 
fehlenden niederwertigen Bits eines Spektralwerts im 

20 Quantisierer zur Rekonstruktion Bitmuster einzusetzen, die 
sich von dem ,,Abrundungsbitmuster'', das durch ,,0 0 0 . . . '" 
dargestellt ist, unterscheiden . In anderen Worten bedeutet 
dies, daJi das Rekonstruktionsbitmuster zumindest eine ^l''' 
umfalit und vorzugsweise daB das hbchstwertige Bit des 

25 Rekonstruktionsbitmusters eine „1"' ist. 

Im nachfolgenden wird auf die Funktionsweise des in Fig. 6 
gezeigten Codierers und des in Fig. 7 gezeigten Decodierers 
eingegangen, die als bevorzugten Transf ormationsalgorithmus 
die IntMDCT umfassen. Das IntMDCT-Spektrum liefert eine 

30 ganzzahlige spektrale Darstellung des Audiosignals . 
Parallel hierzu berechnet das psychoakustische Modell im in 
Fig. 6 gezeigten Codierer die Mithorschwelle . Die 
Mithorschwelle ist, wie es bereits ausgefiihrt worden ist, 
aufgrund des kontinuierlichen Verlaufs effizient codierbar 

35 und im Bitstrom ubertragbar, beispielsweise durch 
Koef f izienten eines FIR-Filters oder durch polynominale 
Interpolation . 
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Aus der Mithorschwelle ergibt sich fiir jede Spektrallinie 
die Anzahl der Bits, die psychoakustisch nicht signifikant 
sind, also die Bits der Spektralwerte, deren Ordnung 
geringer ist als die Ordnung des MSB der Mithorschwelle flir 
5 diesen Spektralwert . Auf Fig. 3 bezogen sind dies die Bits 
unterhalb den dick umrandeten Kasten. 

Jeder Betragswert der Integer-Spektralwerte wird bitweise 
dargestellt, um dann mittels der Einrichtung 604 entlang 

10 des Frequenzbereichs Bitschichten gleicher 

psychoakustischer Signifikanz, beispielsweise parallel zur 
Schicht der gerade noch psychoakustisch signif ikanten Bits, 
zu definieren, wobei eine Praferenz niedriger Frequenzen in 
den signif ikanteren Schichten bevorzugt wird. Die Bits 

15 werden entlang der Signif ikanzschichten geordnet, wobei mit 
• dem signif ikantesten Bit begonnen wird. Die Startschicht 
ergibt sich entweder aus den theoretischen Maximalwerten 
Oder aus einer effizient codierten spektralen Einhiillenden, 
analog zur codierten Mithorschwelle, oder aus einer 

20 Parallelverschiebung der Mithorschwelle, wie z. B. um 
30 dB, was also funf Bits entsprechen wurde . 

In den Schichten hoher Signifikanz ist ein Auftreten von 
„1'^ sehr unwahrscheinlich, da nur wenige Spektrallinien 

25 weit aus der Mithorschwelle herausragen, wie z. B. die 
Spektrallinie 5 von Fig. 2 oder Fig. 3. Zu niedrigeren 
Schichten hin steigt die Wahrscheinlichkeit fiir eine „1'' an 
und nahert sich 50 %. Auf eine derart angeordnete Bitfolge 
wird es bevorzugt, die bitweise arithmetische Codierung zur 

30 Redundanzreduktion anzuwenden. 

Bei einem Aspekt der vorliegenden Erfindung wird der 
Skalierbarkeitsbereich nicht nur, wie in MPEG-4 BSAC, bis 
zur psychoakustischen Transparenz erweitert, sondern bis 
35 zur verlustlosen Codierung/Decodierung. Werden die gesamte 
cpdierte Bitfolge und bei entsprechender Darstellung auch 
die zugehorigen Vorzeichen der Spektralwerte ubertragen, so 
arbeitet das Ausfiihrungsbeispiel verlustlos. Wird nur ein 
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Teil der codierten Bitfolge iibertragen, so ergibt sich 
bereits eine Irrelevanzreduktion . Wird die codierte 
Bitfolge jedoch bis zur Schicht der gerade noch 
signif ikanten Bits ubertragen, so arbeitet das Verfahren im 
5 gerade noch transparentem Modus . Warden weniger Bits 
ubertragen, so ergibt sich eine Reduktion der Bitrate, die 
jedoch auch mit einer Reduktion der Audio/Videoqualitat 
einhergeht . 

10 Werden zusatzlich zu den psychoakustisch signif ikanten 
Schichten weitere Schichten iibertragen, so wird das 
Audiosignal (Videosignal) mit zusatzlichem 

Sicherheitsabstand zur Verdeckungsschwelle dargestellt und 
ermoglicht so eine nahezu verlustlose Darstellung mit einer 

15 grolien Robustheit gegenuber .Nachbearbeitungsschritten . 

Die Zahl der notigen Bits zum Erreichen von Transparenz 
variiert von Block zu Block. Wird diese Information im 
vollstandigen, verlustlosen Bitstrom mitcodiert, so lalit 

20 sich diese Information fiir die Steuerung der Bitzuteilung 
zum Erreichen einer konstanten Bitrate nutzen. Diese 
Information liegt exakt vor und kann fiir jede gewiinschte 
konstante Bitrate verwendet werden. So laiit sich aus dem 
vollstandigen, verlustlos codierten Bitstrom fiir jede 

25 vorgegebene konstante Bitrate ein gehorangepaJJt codierter 
Teilbitstrom entnehmen, der die Funktionalitat der lokal 
variierenden Bitrate nutzt. 

Schlielilich ermoglicht eine Ubertragung der zum Erreichen 
30 von Transparenz notigen Bitschichten in den 
Seiteninf ormationen eine Kontrolle iiber die aktuelle im 
Teilbitstrom iibertragene Audioqualitat , indem dieser Wert 
mit der Zahl der tatsachlich ubertragenen Bitschichten 
verglichen wird. 

35 Im nachf olgenden wird als Beispiel fiir einen ganzzahligen 
Transf ormationsalgorithmus auf den IntMDCT- 

Transf ormationsalgorithmus eingegangen, der in ,,Audio 
Coding Based on Integer Transforms^^ 111-te AES-Versammlung, 
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New York, 2001, beschrieben ist. Die IntMDCT ist besonders 
gunstig, da sie die attraktiven Eigenschaf ten der MDCT hat, 
wie z. B. eine gute spektrale Darstellung des Audiosignals , 
eine kritische Abtastung und eine Blockuberlappung 
5 auf waist. 

Fig. 11 zeigt ein Ubersichtsdiagramm fiir die 
erf indungsgemaft bevorzugte Vorrichtung zum Verarbeiten von 
zeitdiskreten Abtastwerten, die ein Audiosignal darstellen, 

10 um ganzzahlige Werte zu erhalten, auf denen aufbauend der 
Int-MDCT-Ganzzahl-Transf ormationsalgorithmus arbeitet . Die 
zeitdiskreten Abtastwerte werden durch die in Fig. 11 
gezeigte Vorrichtung gefenstert und optional in eine 
spektrale Darstellung umgesetzt. Die zeitdiskreten 

15 Abtastwerte, die an einem Eingang 10 in die Vorrichtung 
eingespeist werden, werden mit einem Fenster w mit einer 
Lange, die 2N zeitdiskreten Abtastwerten entspricht, 
gefenstert, um an einem Ausgang 12 ganzzahlige gefensterte 
Abtastwerte zu erreichen, welche dazu geeignet sind, um 

20 mittels einer Transformation und insbesondere der 
Einrichtung 14 ziim Ausfuhren einer ganzzahligen OCT in eine 
spektrale Darstellung umgesetzt zu werden. Die ganzzahlige 
DCT ist ausgebildet, um aus N Eingangswerten N 
Ausgangswerte zu erzeugen, was im Gegensatz zu der MDCT- 

25 Funktion 408 von Fig. 10a steht, die aus 2N gefensterten 
Abtastwerten aufgrund der MDCT-Gleichung lediglich N 
Spektralwerte erzeugt . 

Zum Fenstern der zeitdiskreten Abtastwerte werden zunachst 
in einer Einrichtung 16 zwei zeitdiskrete Abtastwerte 

30 ausgewahlt, die zusammen einen Vektor von zeitdiskreten 
Abtastwerten darstellen. Ein zeitdiskreter Abtastwert, der 
durch die Einrichtung 16 ausgewahlt wird, liegt im ersten 
Viertel des Fensters. Der andere zeitdiskrete Abtastwert 
liegt in dem zweiten Viertel des Fensters, wie es anhand 

35 von Fig, 13 noch detaillierter ausgefuhrt wird. Der durch 
die Einrichtung 16 erzeugte Vektor wird nunmehr mit einer 
Drehmatrix der Dimension 2x2 beauf schlagt, wobei diese 
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Operation nicht unmittelbar durchgefiihrt wird, sondern 
mittels mehrerer sogenannten Lif ting-Matrizen. 

Eine Lifting-Matrix hat die Eigenschaft, dali sie nur ein 
5 Element aufweist, das von dem Fenster w abhangt und 
ungleich "1" oder "0" ist. 

Die Faktorisierung von Wavelet-Transf ormationen in Lifting- 
Schritte ist in der Fachverof fentlichung "Factoring Wavelet 

10 Transforms Into Lifting Steps", Ingrid Daubechies und Wim 
Sweldens, Preprint, Bell Laboratories, Lucent Technologies, 
1996, dargestellt. Allgemein ist ein Lifting-Schema eine 
einfache Beziehung zwischen perfekt rekonstruierenden 
Filterpaaren, die dasselbe TiefpaB- oder Hochpal^f ilter 

15 haben. Jedes Paar komplementarer Filter kann in Lifting- 
Schritte faktorisiert werden. Insbesondere gilt dies flir 
Givens-Rotationen . Es sei der Fall betrachtet, bei dem die 
Polyphasenmatrix eine Givens-Rotation ist. Es gilt dann: 



20 



ySina cosor j 



( J cos«-l ^ 
sin or 

0 1 



1 I 
^^sina \j 



1 



Sin a 
1 



(1) 



Jede der drei rechts des Gleichheitszeichens stehenden 
Lif ting-Matrizen hat als Hauptdiagonalelemente den Wert 
"1". Ferner ist in jeder Lifting-Matrix ein 
25 Nebendiagonalelement gleich 0, und ein Nebendiagonalelement 
vom Drehwinkel a abhangig. 

Der Vektor wird nunmehr mit der dritten Lifting-Matrix, d. 

h. der Lif tingmatrix ganz rechts in obiger Gleichung, 
30 multipliziert , urn einen ersten Ergebnisvektor zu erhalten. 

Dies ist in Fig. 11 durch eine Einrichtung 18 dargestellt. 

Es wird nunmehr der erste Ergebnisvektor mit einer 

beliebigen Rundungsfunktion, die die Menge der reellen 

Zahlen in die Menge der ganzen Zahlen abbildet, gerundet, 
35 wie es in Fig. 11 duirch eine Einrichtung 20 dargestellt 

ist. Am Ausgang der Einrichtung 20 wird ein gerundeter 
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erster Ergebnisyektor erhalten. Der gerundete erste 
Ergebnisvektor wird nunmehr in eine Einrichtung 22 zum 
Multiplizieren desselben mit der mittleren, d. h. zweiten, 
Lifting-Matrix eingespeist, urn einen zweiten Ergebnisvektor 
5 zu erhalten^ der in einer Einrichtung 24 wiederum gerundet 
wird, urn einen gerundeten zweiten Ergebnisvektor zu 
erhalten. Der gerundete zweite Ergebnisvektor wird nunmehr 
in eine Einrichtung 26 eingespeist, und zwar zum 
Multiplizieren desselben mit der links in der obigen 

10 Gleichung aufgef uhrten, d. h. ersten, Lif tingmatrix, um 
einen dritten Ergebnisvektor zu erhalten, der schlielilich 
noch mittels einer Einrichtung 28 gerundet wird, um 
schlielilich an dem Ausgang 12 ganzzahlige gefensterte 
Abtastwerte zu erhalten, die nun, wenn eine ■ spektrale 

15 Darstellung derselben gewiinscht wird, durch die Einrichtung 
14 verarbeitet. werden mussen, um an einem Spektralausgang 
30 ganzzahlige Spektralwerte zu erhalten. 

Vorzugsweise ist die Einrichtung 14 als Ganzzahl-DCT oder 
20 Integer-DCT ausgefuhrt. 



Die diskrete Cosinus-Transf ormation gemafi • Typ 4 (DCT-IV) 
mit einer Lange N ist durch folgende Gleichung gegeben: 



25 X, (m) = x{k)oos^-^{2k + iXlm + 1) 



(2) 



Die Koef f izienten der DCT-IV bilden eine orthonormale N x N 
Matrix. Jede orthogonale N x N-Matrix kann in N (N-l)/2 
Givens-Rotationen zerlegt werden, wie. es in der 
Fachverof fentlichung P. P. Vaidyanathan, "Multirate Systems 
30 And Filter Banks", Prentice Hall, Englewood Cliffs, 1993, 
ausgefuhrt ist. Es sei darauf hingewiesen, daii auch weitere 
Zerlegungen existieren. 

Bezuglich der . Klassif ikationen der verschiedenen DCT- 
35 Algorithmen sei auf H. S. Malvar, "Signal Processing With 
Lapped Transforms", Artech House, - 1992, verwiesen. 
Allgemein unterscheiden sich die DCT-Algorithmen durch die 
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Art ihrer Basisf unktionen . Wahrend die DCT-IV, die hier 
bevorzugt wird, nicht-symmetrische Basisf unktionen umfaBt, 
d. h. eine Cosinus-Viertelwelle, eine Cosinus-3/4-Welle , 
eine Cosinus-5/4-Welle, eine Cosinus-7/4~Welle, etc., hat 
5 die diskrete Cosinustransf ormation z. B. vom Typ II (DCT- : 
II), achsensyitimetrische und punktsymmetrische 

Basisf unktionen. Die 0-te Basisf unktion hat einen 
Gleichanteil, die erste Basisf unktion ist eine halbe 
Cosinuswelle, die • zweite Basisf unktion ist eine ganze 
10 Cosinuswelle, usw. Aufgrund der Tatsache, daJi die DCT-II 
den Gleichanteil besonders beriicksichtigt , wird sie bei der 
Videocodierung verwendet, nicht aber bei der 
Audiocodierung, da bei der Audiocodierung im Gegensatz zur 
Videocodierung der Gleichanteil nicht von Relevanz ist. 

15 

Im nachfolgend wird darauf eingegangen, wie der Drehwinkel 
a der Givens-Rotation von der Fensterf unktion abhangt. 

Eine MDCT mit einer Fensterlange von 2N kann in eine 
20 diskrete Cosinustransf ormation vom Typ IV mit einer Lange N 
reduziert werden. Dies wird dadurch erreicht, dali die TDAC- 
Operation explizit im Zeitbereich durchgeflihrt wird, und 
daJi dann die DCT-IV angewandt wird. Bei einer 50%igen 
Uberlappung iiberlappt die linke Halfte des Fensters fur 
25 einen Block t mit der rechten Halfte des vorausgehenden 
Blocks, d. h. des Blocks t-1. Der iiberlappende Teil zwei 
auf einanderf olgender Blocke t-1 und t wird im Zeitbereich, 
d. h. vor der Transformation, f olgendermalien 
vorverarbeitet , d. h. zwischen dem Eingang 10 und dem 
30 Ausgang 12 von Fig. 11 verarbeitet: 



(3) 



35 
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Die mit der Tilde bezeichneten Werte sind die Werte am 
Ausgang 12 von Fig. 11, wahrend die ohne Tilde in der 
obigen Gleichung bezeichnete x Werte die Werte am Eingang 
10 bzw. hinter der Einrichtung 16 zum Auswahlen sind. Der 
Laufindex k lauft von 0 bis N/2-1, wahrend w die 
Fensterf unktion darstellt. 

Aus der TDAC-Bedingung ftir die Fensterfunktion w gilt 
f olgender Zusammenhang : 



10 



N_ 



= 1 



(4) 



Fiir bestimmte Winkel ajc, k = 0, N/2-1 kann diese 

15 Vorverarbeitung im Zeitbereich als Givens-Rotation 
geschrieben warden, wie es ausgefiihrt worden ist. 

Der Winkel a der Givens-Rotation hangt f olgendermafien von 
der Fensterfunktion w ab: 

20 

a = arctan[w(N/2-l-k) / w(N/2 + k) ] (5) 

Es sei darauf hingewiesen, dali beliebige Fensterfunktionen 
w eingesetzt warden konnen, solanga sie diase TDAC- 
25 Bedingung erflillen. 



Im nachf olgenden wird anhand von Fig. 12 ein kaskadierter 
vCodiarar und Dacodiarar baschriaban. Die zaitdiskratan 
Abtastwerte x(0) bis x(2N-l), die durch ein Fenster 

30 gemeinsam "gafanstart" warden, warden zunachst darart durch 
die Einrichtung 15 von Fig. 11 ausgewahlt, dali der 
Abtastwert x(0) und der Abtastwert x(N-l), d. h. ein 
Abtastwert aus dem ersten Viertel des Fensters und ein 
Abtastwert aus dem zweiten Viertel des Fensters, ausgewahlt 

35 werden, urn den Vektor am Ausgang der Einrichtung 16 zu 
bilden. Die sich iiberkreuzenden Pfeile stellen schematisch 
die Lif ting-Multiplikationen und anschlielienden Rundungen 
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der Einrichtungen 18, 20 bzw. 22, 24 bzw. 26, 28 dar, urn am 
Eingang der DCT-IV-Blocke die ganzzahligen gefensterten 
Abtastwerte zu erhalten. 

5 Wenn der erste Vektor wie oben beschrieben verarbeitet ist, 
wird ferner ein zweiter Vektor aus den Abtastwerten x (N/2- 
1) und x(N/2), d, h. wieder ein Abtastwert aus dem ersten 
Viertel des Fenster und ein Abtastwert aus dem zweiten 
Viertel des Fensters, ausgewahlt und wiederum durch den in 

10 Fig. 11 beschriebenen Algorithmus verarbeitet. Analog dazu 
werden samtliche anderen Abtastwertpaare aus dem ersten und 
zweiten Viertel des Fensters bearbeitet. Die selbe 
Verarbeitung wird fur das dritte und vierte Viertel des 
ersten Fensters durchgeflihrt - Nunmehr liegen am Ausgang 12 

15 2N gefensterte ganzzahlige Abtastwerte vor, die nunmehr so, 
wie es in Fig. 12 dargestellt ist, in eine DCT-IV- 
Transf ormation eingespeist werden. Insbesondere werden die 
ganzzahligen gefensterten Abtastwerte des zweiten und 
dritten Viertels in eine DCT eingespeist. Die gefensterten 

20 ganzzahligen Abtastwerte des ersten Viertels des Fensters 
werden in eine vorausgehende DCT-IV zusammen mit den 
gefensterten ganzzahligen Abtastwerten des vierten Viertels 
des vorausgehenden Fensters verarbeitet. Analog dazu wird 
das vierte Viertel der gefensterten ganzzahligen 

25 Abtastwerte in Fig. 12 mit dem ersten Viertel des nachsten 
Fensters zusammen in eine DCT-IV~Transf ormation 
eingespeist. Die mittlere in Fig. 12 gezeigte ganzzahlige 
DCT-IV-Transf ormation 32 liefert nunmehr N ganzzahlige 
Spektralwerte y(0) bis y(N-l). Diese ganzzahligen 

30 Spektralwerte konnen nunmehr beispielsweise einfach 
Entropie-codiert werden, ohne daJi eine dazwischenliegende 
Quantisierung erforderlich ist, da die Fensterung und 
Transformation ganzzahlige Ausgangswerte liefert. 

35 In der rechten Halfte von Fig. 12 ist ein Decodierer 
dargestellt. Der Decodierer bestehend aus 

Rucktransf ormation und "inverser Fensterung" arbeitet 
invers zum Codierer. Es ist bekannt, dafi zur 
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Riicktransf ormation einer DCT-IV eine inverse DCT~IV 
verwendet werden kann, wie es in Fig. 12 dargestellt ist. 
Die Ausgangswerte der Decodierer-DCT-IV 34 werden nunmehr, 
wie es in Fig. 12 dargestellt ist, mit den entsprechenden 
5 Werten der vorausgehenden Transformation bzw. der 
nachf olgenden Transformation invers verarbeitet, urn aus den 
ganzzahligen gefensterten Abtastwerten am Ausgang der 
Einrichtung 34 bzw. der vorausgehenden und nachf olgenden 
Transformation wieder zeitdiskrete Audio-Abtastwerte x(0) 
10 bis x{2N-l) zu erzeugen. 

Die ausgangsseitige Operation geschieht durch eine inverse 
Givens-Rotation, d. h. derart, dali die Blocke 26, 28 bzw. 
22, 24 bzw. 18, 20 in der entgegengesetzten Richtung 

15 durchlaufen werden. Dies sei anhand der zweiten Lifting- 
Matrix von Gleichung 1 naher dargestellt- Wenn (im 
Codierer) der zweite Ergebnisvektor durch Multiplikation 
des gerundeten ersten Ergebnisvektors mit der zweiten 
Lif tingmatrix (Einrichtung 22) gebildet wird, so ergibt 

20 sich folgender Ausdruck: 

{x,y)\-^ {x,y + xsina) (6) 

Die Werte x, y auf der rechten Seite von Gleichung 6 sind 
25 Ganzzahlen. Dies trifft jedoch fiir den Wert x sin a nicht 
zu. Hier muB die Rundungsfunktion r eingefuhrt werden, wie 
es in der nachf olgenden Gleichung 

{x,y) h-> + r{xs\n a)) ( 7 ) 

30 

dargestellt ist. Diese Operation fiihrt die Einrichtung 24 
aus . 

Die inverse Abbildung (im Decodierer) ist f olgendermalien 
35 definiert: . 



(x',/)h-> {x\y-r{x'sma)) 
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Aufgrund dem Minuszeichens vor der Rundungsoperation wird 
ersichtlich, daft die ganzzahlige Approximierung des 
Lif ting-Schritts umgekehrt werden kann, ohne daJi ein Fehler 
eingefiihrt wird. Die Anwendung dieser Approximation auf 
5 jeden der drei Lif ting-Schritte fiihrt zu einer ganzzahligen 
Approximation der Givens-Rotation. Die gerundete Rotation 
(im Codierer) kann umgekehrt werden (im Decodierer) , ohne 
dali ein Fehler eingefiihrt wird, und zwar indem die inversen 
gerundeten Lif ting-Schritte in umgekehrter Reihenfolge 
10 durchlaufen werden, d. h. wenn beim Decodieren der 
Algorithmus von Fig. 11 von unten nach oben durchgefiihrt 
wird. 

Wenn die Rundungsfunktion r punktsymmetrisch ist, ist die 
inverse gerundete Rotation identisch zu der gerundeten 
15 Rotation mit dem Winkel -a und.lautet f olgendermalien : 



^ cosa sina^ 



\^-sm<2 cos ay 



(9) 



Die Lif ting-Matrizen fur den Decodierer, d. h. fur die 
20 inverse Givens-Rotation, ergibt sich in diesem Fall 
unmittelbar aus Gleichung (1), indem lediglich der Ausdruck 
"sin a" durch den Ausdruck "-sin a" ersetzt wird. 

Im nachf olgenden wird anhand von Fig. 13 noch einmal die 
25 Zerlegung einer tiblichen MDCT mit iiberlappenden Fenstern 40 
bis 46 dargelegt. Die Fenster 40 bis 46 uberlappen jeweils 
zu 50%. Pro Fenster werden zunachst Givens-Rotationen 
innerhalb des ersten und zweiten Viertels eines Fensters 
bzw. innerhalb des dritten und vierten Viertels eines 
30 Fensters ausgefuhrt, wie es durch die Pfeile 48 schematisch 
dargestellt ist- Dann werden die rotierten Werte, d. h. die 
gefensterten ganzzahligen Abtastwerte derart in eine N-zu- 
N-DCT eingespeist, daJi immer das zweite und dritte Viertel 
eines Fensters bzw. das vierte und erste Viertel eines 
35 darauff olgenden Fensters gemeinsam mittels eines DCT-IV- 
Algorithmus in eine spektrale Darstellung umgesetzt wird. 
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Es werden daher die iiblichen Givens-Rotation in Lifting- 
Matrizen zerlegt, die sequentiell ausgeflihrt werden, wobei 
nach jeder Lif ting-Matrix-Multiplikation ein 

Rundungsschritt eingefiihrt wird, derart, dali die 
5 Gleitkomma-Zahlen unmittelbar nach ihrer Entstehiing 
gerundet werden, derart, dafi vor jeder Multiplikation eines 
Ergebnisvektors mit einer Lifting-Matrix der Ergebnisvektor 
lediglich Ganzzahlen hat. 

Die Ausgangswerte bleiben also iinmer ganzzahlig, wobei es 
bevorzugt wird, auch ganzzahlige Eingangswerte zu 
verwenden. Dies stellt keine Einschrankung dar, da 
jegliche beispiel.sweise PCM-Abtastwerte, wie sie auf einer 
CD abgespeichert sind, ganzzahlige Zahlenwerte sind, deren 
Wertebereich je nach Bitbreite variiert, d. h. abhangig 
davon, ob die zeitdiskreten digitalen Eingangswerte 16-Bit- 
Werte oder 24-Bit-Werte sind. Dennoch ist, wie es 
ausgeflihrt worden ist, der gesamte ProzeB invertierbar , 
indem die inversen Rotationen in umgekehrter Reihenfolge 
ausgeflihrt werden. Es existiert somit eine ganzzahlige 
Approximation der MDCT mit perfekter Rekonstruktion, also 
eine verlustlose Transformation. 

Die gezeigte Transformation liefert ganzzahlige 
25 Ausgangswerte statt Gleitkommawerte . Sie liefert eine 
perfekte Rekonstruktion, so daii kein Fehler eingefiihrt 
wird, wenn eine Vorwarts- und dann eine 
Rlickwartstransformation ausgeflihrt werden. Die 

Transformation ist gemali einem bevorzugten 

30 Ausflihrungsbeispiel der vorliegenden Erfindung ein Ersatz 
fur die modifizierte diskrete Cosinustransf ormation. Auch 
andere Transf ormationsverf ahren konnen jedoch ganzzahlig 
ausgeflihrt werden, so lange eine Zerlegung in Rotationen 
und eine Zerlegung der Rotationen in Lif ting-Schritte 
35 moglich ist. 

Die • ganzzahlige MDCT hat die meisten glinstigen 
Eigenschaften der MDCT. Sie hat eine liberlappende Struktur, 
wodurch eine bessere Frequenzselektivitat als bei nicht- 



15 
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uberlappenden Blocktransf ormationen erhalten wird. Aufgrund 
der TDAC-Funktion, die bereits beim Fenstern vor der 
Transformation beriicksichtigt wird, wird eine kritische 
Abtastung beibehalten, so daB die Gesamtanzahl von 
5 Spektralwerten, die ein Audiosignal darstellen, gleich der . 
Gesamtanzahl von Eingangs-Abtastwerten ist. 

Verglichen mit einer normalen MDCT, die Gleitkomma- 
Abtastwerte liefert, zeigt sich bei der beschriebenen 

10 bevorzugten ganzzahligen Transformation, dali lediglich in 
dem Spektralbereich, in dem wenig Signalpegel ist, das 
Rauschen im Vergleich zur normalen MDCT erhoht ist, wahrend 
sich diese Rauscherhohung bei signif ikanten Signalpegeln 
nicht bemerkbar macht. Dafur bietet sich die ganzzahlige 

15 Verarbeitung fur eine effiziente Hardware-Implementation 
an, da lediglich Multiplikationsschritte verwendet werden, 
die . ohne weiteres in Verschieben-Addieren-Schritte 
(Shif t/Add-Schritte) zerlegt werden konnen, welche einfach 
und schnell hardwaremaJiig implementiert werden konnen. 

20 Selbstverstandlich ist auch eine Software-Implementation 
moglich. 

Die ganzzahlige Transformation liefert eine gute spektrale 
Darstellung des Audiosignals und bleibt dennoch im Bereich 
der ganzen Zahlen. Wenn sie auf tonale Telle eines 

25 Audiosignals angewandt wird, resultiert dies in einer guten 
Energiekonzentrierung- Damit kann ein effizientes 
verlustloses Codierschema aufgebaut werden, indem einfach 
die in Fig. 11 dargestellte Fensterung/Transf ormation mit 
einem Entropiecodierer kaskadiert wird. Insbesondere ein 

30 gestapeltes Codieren (Stacked Coding) unter Verwendung von 
Escape-Werten, wie es in MPEG AAC eingesetzt wird, ist 
giinstig. Es wird bevorzugt, alle Werte urn eine bestimmte 
Potenz von zwei herunterzuskalieren, bis sie in eine 
erwunschte Codetabelle passen, und dann die weggelassenen 

35 niederstwertigen Bits zusatzlich zu codieren. Im Vergleich 
zu der Alternative der Verwendung von groJieren Codetabellen 
ist die beschriebene Alternative hinsichtlich des 
Speicherverbrauchs zum Speichern der Codetabellen 
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giinstiger. Ein nahezu verlustloser Codierer konnte auch 
dadurch erhalten werden, dali einfach bestimmte der 
niederstwertigen Bits weggelassen werden. 

5 Insbesondere fur tonale Signale ermoglicht eine Entropie- 
Codierung der ganzzahligen Spektralwerte einen hohen 
Codiergewinn. Fiir transients Teile des Signals ist der 
Codiergewinn niedrig, und zwar aufgrund des flachen 
Spektrums transienter Signale, d. h, aufgrund einer 

10 geringen Anzahl von Spektralwerten, die gleich oder nahezu 
0 sind. Wie es in J. Herre, J. D. Johnston: "Enhancing the 
Performance of Perceptual Audio Coders by Using Temporal 
Noise Shaping (TNS)'^ 101. AES Convention, Los Angeles, 
1996, Preprint 4384, beschrieben ist, kann diese Flachheit 

15 jedoch verwendet werden, indem eine lineare Pradiktion im 
Frequenzbereich verwendet wird. Eine Alternative ist eine 
Pradiktion mit offener Schleife. Eine andere Alternative 
ist der Pradiktor mit geschlossener Schleife. Die erste 
Alternative, d. h. der Pradiktor mit offener Schleife, wird 

20 TNS genannt- Die Quantisierung nach der Pradiktion fiihrt zu 
einer Adaption des resultierenden Quantisierungsrauschens 
an die zeitliche Struktur des Audiosignals und verhindert 
daher Vorechos in psychoakustischen Audiocodierern. Fur ein 
verlustloses Audiocodieren ist die zweite Alternative, d. 

25 h. mit einem Pradiktor mit geschlossener Schleife, 
geeigneter, da die Pradiktion mit geschlossener Schleife 
eine genaue Rekonstruktion des Eingangssignals erlaubt. 
Wenn diese Technik auf ein erzeugtes Spektrum angewendet 
wird, muB ein Rundungsschritt nach jedem Schritt des 

30 Pradiktionsf liters durchgefuhrt werden, um im Bereich der 

Ganzzahlen zu bleiben. Durch Verwenden des inversen Filters ' 
und derselben Rundungsf unktion kann das urspriingliche 
Spektrum genau wieder hergestellt werden. 



35 Um die Redundanz zwischen zwei Kanalen zur Datenreduktion 
auszunutzen, kann auch eine Mitte-Seite-Codierung 
verlustlos eingesetzt werden, wenn eine gerundete Rotation 
mit einem Winkel 7i/4 verwendet wird. Im Vergleich zur 
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Alternative des Berechnens der Summe und Differenz des 
linken und rechten Kanals eines Stereosignals hat die 
gerundete Rotation den Vorteil der Energieerhaltung . Die 
Verwendung sogenannter Joint- Stereo-Codiertechni ken kann 
5 fizr jedes Band ein- oder ausgeschaltet werden, wie es auch 
im Standard MPEG AAC durchgefuhrt wird. Weitere Drehwinkel 
konnen ebenfalls berucksichtigt warden, urn eine Redundanz 
zwischen zwei Kanalen flexibler reduzieren zu konnen. 

10 Je nach den praktischen Gegebenheiten kann das 
erf indungsgemafte Codierkonzept bzw. das erf indungsgemafie 
Decodierkonzept in Hardware oder in Software implementiert 
werden. Die Implement ierung kann auf einem digitalen 
Speichermedium, insbesondere einer Diskette oder CD mit 

15 elektronisch auslesbaren Steuersignalen erfolgen, die so 
mit einem programmierbaren Computersystem zusammenwirken 
konnen, daB das entsprechende Verfahren ausgefiihrt wird. 
Allgemein besteht die Erf indung somit auch in einem 
Computerprogrammprodukt mit einem auf einem 

20 maschinenlesbaren Trager gespeicherten Programmcode zur 
Durchfiihrung des erf indungsgemaJien Codierverfahrens oder 
des erf indungsgemafien Decodierverf ahrens, wenn das 
Computerprogrammprodukt auf einem Rechner ablauft. In 
anderen Worten ausgedrlickt stellt die Erfindung somit ein 

25 Computerprogramm mit einem Programmcode zur Durchfiihren des 
Verfahrens zum Decodieren bzw. zum Durchfiihren des 
Verfahrens zum Codieren dar, wenn das Computerprogramm auf 
einem Computer ablauft. 



Patentanspriiche 



Vorrichtung zum skalierbaren Codieren eines Spektrums 
eines Signals, das Audio- und/oder Videoinf ormationen 
umfafit, wobei das Spektrum binare Spektralwerte 
aufweist, mit folgenden Merkmalen: 

einer Einrichtung (102) zum Erzeugen einer ersten 
Teilskalierungsschicht unter Verwendung von Bits 
bestiitimter Ordnung einer ersten Anzahl der binaren 
Spektralwerte in einem Band, wobei die erste Anzahl 
grofier oder gleich 1 ist und kleiner als eine 
Gesamtanzahl der binaren Spektralwerte in dem Band 
ist, und zum Erzeugen einer zweiten 

Teilskalierungsschicht unter Verwendung von Bits der 
bestimmten Ordnung einer zweiten Anzahl der binaren 
Spektralwerte, wobei die Einrichtung (102) zum 
Erzeugen ausgebildet ist, um die zweite Anzahl der 
binaren Spektralwerte so zu wahlen, dafi> sie groiier 
Oder gleich 1 und kleiner als die Gesamtanzahl der 
binaren Spektralwerte in dem Band ist, und um die 
zweite Anzahl der Spektralwerte ferner so zu 
bestimmen, dafi sie zumindest einen binaren 
Spektralwert aufweist, der in der ersten Anzahl von 
binaren Spektralwerten nicht enthalten ist; und 
einer Einrichtung (106) zum Bilden eines codierten 
Signals, wobei die Einrichtung zum Bilden ausgebildet 
ist, um die erste Teilskalierungsschicht und die 
zweite Teilskalierungsschicht so in das codierte 
Signal aufzunehmen, dali die erste und die zweite 
Teilskalierungsschicht (113a, 113b) getrennt 

voneinander decodierbar sind. 

Vorrichtung gemalJ Anspruch 1, die ferner folgende 
Merkmale aufweist: 

eine Einrichtung zum Erzeugen einer 

Vollskalierungsschicht unter Verwendung von alien Bits 



mit einer Ordnung, die sich von der bestimmten Ordnung 
unterscheidet, in dem Band, und 

wobei die Einrichtung zum Bilden (106) ferner 
ausgebildet ist, um die Vollskalierungsschicht so in 
dem Bitstrom auf zunehmen, daJi sie unabhangig von der 
ersten und der zweiten Teilskalierungsschicht (113a/ 
113b) decodierbar ist. 

Vorrichtung gemaJi Anspruch 1 oder 2, bei der die 
binaren Spektralwerte quantisiert sind, wobei die 
Vorrichtung ferner folgende Merkmale aufweist: 

eine Einrichtung (84) zum Berechnen von Ordnungen von 
hochstwertigen Bits einer psychoakustischen 

Maskierungsschwelle fiir die Bander; und 

eine Einrichtung (604) zum Definieren von 
Skalierungsschichten der Bits der binaren 
Spektralwerte, wobei eine Skalierungsschicht Bits der 
binaren Spektralwerte aufweist, deren Ordnungen in 
einem bestimmten Abstand zu den Ordnungen der 
hochstwertigen Bits der psychoakustischen 

Maskierungsschwelle fiir die Bander liegen oder deren 
Ordnungen gleich den Ordnungen der hochstwertigen Bits 
der psychoakustischen Maskierungsschwelle fiir diese 
Bander sind. 

Vorrichtung gemali Anspruch 3, 

bei der die Einrichtung (102) zum Erzeugen der ersten 
und der zweiten Teilskalierungsschicht (113a, 113b) 
ausgebildet ist, um als Bits bestimmter Ordnung die 
Bits der binaren Spektralwerte zu verwenden, deren 
Abstand zu der Ordnung des hochstwertigen Bits der 
psychoakustischen Maskierungsschwelle in dem Band 
gleich „+l'\ „0'' und/oder „-l^^ ist. 

Vorrichtung gemali Anspruch 3 oder 4, 



bei der die Einrichtung (84) zum Berechnen der 
Ordnungen von hochstwertigen Bits der 

psychoakustischen Maskierungsschwelle ausgebildet ist , 
urn fur jeden Spektralwert in dem Band eine Ordnung 
eines hochstwertigen Bits zu bestimmen/ oder um eine 
Ordnung eines hochstwertigen Bits der 

psychoakustischen Maskierungsschwelle fur das gesamte 
Band zu bestimmen. 

Vorrichtung gemali einem der Anspriiche 3 bis 5, bei der 
die Einrichtung (106) zum Bilden ferner ausgebildet 
ist, um Informationen liber die psychoakustische 
Maskierungsschwelle als Seiteninf ormationen (110) in 
das codierte Signal aufzunehmen. 

Vorrichtung gemafi einem der vorhergehenden Anspriiche, 

bei der die erste Teilskalierungsschicht vor der 
zweiten Teilskalierungsschicht decodierbar ist, und 

bei der die Einrichtung (102) zum Erzeugen der ersten 
und der zweiten Teilskalierungsschicht ausgebildet 
ist, um fiir die erste Anzahl der binaren Spektralwerte 
den/die Spektralwerte auszuwahlen, durch den/die ein 
grofiter Genauigkeitsgewinn fiir das Band erzielbar ist. 

Vorrichtung gemali einem der Anspriiche 1 bis 7, 

bei der die erste Teilskalierungsschicht vor der 
zweiten Teilskalierungsschicht decodierbar ist, und 

bei der die Einrichtung (102) zum Erzeugen der ersten 
und der zweiten Teilskalierungsschicht ausgebildet 
ist, um fiir die erste Teilskalierungsschicht den 
binaren Spektralwert zu verwenden, der, dargestellt 
durch Bits in hoheren Skalierungsschichten, in dem 
Band die grolite Differenz zu einer psychoakustischen 
Maskierungsschwelle fiir den Spektralwert aufweist. 
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Vorrichtung gemaii einem der vorhergehenden Anspriiche, 

bei der die Einrichtung (102) zum Erzeugen der ersten 
und der zweiten Teilskalierungsschicht ausgebildet 
ist, um fiir die erste Teilskalierungsschicht den 
binaren Spektralwert zu verwenden, der, dargestellt 
durch. Bits in hoheren Skalierungsschichten, in dem 
Band der kleinste quantisierte Spektralwert ist. 

Vorrichtung gemaii einem der vorhergehenden Anspruche, 

bei der die Spektralwerte durch eine Ganzzahl-MDCT aus 
zeitlichen Abtastwerten des Signals erzeugt worden 
sind. 

Vorrichtung gemaii Anspruch 1 oder 2, bei der die 
Spektralwerte unter Verwendung eines psychoakustischen 
bzw. psychooptischen Modells quantisiert sind (82) . 

Vorrichtung gemafi Anspruch 11, 

bei der die Einrichtung (102) zum Erzeugen einer 
ersten und einer zweiten Teilskalierungsschicht 
ausgebildet ist, um eine konstante bestimmte Ordnung 
von Bits in den Bandern zu verwenden. 

Vorrichtung gemaii Anspruch 11 oder 12, 

bei ' der die bestimmte Ordnung die niederstwertige 
Ordnung der Bits der quantisierten binaren 
Spektralwerte ist. 

Vorrichtung gemaii einem der vorhergehenden Anspriiche, 
bei der ein Band m Spektralwerte aufweist, 
wobei m grolier oder gleich 2 ist, und 
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bei der die Einrichtung (102) zum Erzeugen der ersten 
und der zweiten Teilskalierungsschicht ausgebildet 
ist, urn die erste und die zweite Anzahl von 
5 Teilskalierungsschichten so zu berechnen, dafi> sie 

hochstens gleich m sind und mindestens gleich 1 sind, 
wobei in dem Fall, in dem m Teilskalierungsschichten 
vorhanden sind, jede Teilskalierungsschicht ein Bit 
der bestimmten Ordnung von genau einem Spektralwert 
10 umfafit, wobei ein Spektralwert nur in genau einer 

Teilskalierungsschicht fur die bestimmte Ordnung 
vorhanden ist. 

15. Vorrichtung gemali Anspruch 14, bei der m gleich 4 ist. 

15 16. Vorrichtung gemalJ einem der vorhergehenden Anspruche, 

bei der die Einrichtung (102) zum Erzeugen der ersten 
und der zweiten Teilskalierungsschicht ausgebildet 
ist, um eine arithmetische Codierung der ersten bzw. 
20 zweiten Anzahl von Bits der quantisierten 

Spektralwerte der bestimmten Ordnung durchzufuhren. 

17. Vorrichtung zum skalierbaren Decodieren eines 
codierten Signals, das eine erste und eine zweite 

25 Teilskalierungsschicht aufweist, wobei die erste 

Teilskalierungsschicht Bits bestimmter Ordnung einer 
ersten Anzahl von binaren Spektralwerten in einem Band 
aufweist, wobei die zweite Teilskalierungsschicht Bits 
der bestimmten Ordnung einer zweiten Anzahl von 

30 binaren Spektralwerte in dem Band aufweist, und wobei 

die zweite Anzahl zumindest einen Spektralwert 
aufweist, der in der ersten Anzahl nicht enthalten 
^ ist, mit folgenden Merkmalen: 

35 einer Einrichtung (704) zum Extrahieren der ersten 

Teilskalierungsschicht aus dem codierten Signal und 
der zweiten Teilskalierungsschicht aus dem codierten 
Signal; und 
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einer Einrichtung zum Verarbeiten der ersten 
Teilskalierungsschicht und der zweiten 

Teilskalierungsschicht, urn die Bits der bestimmten 
Ordnung der binaren quantisierten Spektralwerte in dem 
Band zu ermitteln. 

Vorrichtung gemafi Anspruch 11, 

bei der die erste Anzahl der binaren Spektralwerte fur 
die erste Teilskalierungsschicht gewahlt ist, urn einen 
gr6Bten Genauigkeitsgewinn fiir ein Band zu erzielen, 

wobei die Einrichtung (704) zum Extrahieren 
ausgebildet ist^ urn die erste Teilskalierungsschicht 
vor der zweiten Teilskalierungsschicht zu extrahieren. 

Verfahren zum skalierbaren Codieren eines Spektrums 
eines Signals, das Audio- und/oder Videoinf ormationen 
umfaJit, wobei das Spektrum binare Spektralwerte 
aufweist, mit folgenden Schritten: 

Erzeugen (102) einer ersten Teilskalierungsschicht 
unter Verwendung von Bits bestimititer Ordnung einer 
ersten Anzahl der binaren Spektralwerte in einem Band, 
wobei die erste Anzahl groiSer Oder gleich 1 ist und 
kleiner als eine Gesamtanzahl der binaren 
Spektralwerte in dem Band ist, und zum Erzeugen einer 
zweiten Teilskalierungsschicht unter Verwendung von 
Bits der bestimmten Ordnung einer zweiten Anzahl der 
binaren Spektralwerte, wobei die Einrichtung (102) zum 
Erzeugen ausgebildet ist, urn die zweite Anzahl der 
binaren Spektralwerte so zu wahlen, daJi sie grolier 
Oder gleich 1 und kleiner als die Gesamtanzahl der 
binaren Spektralwerte in dem Band ist, und urn die 
zweite Anzahl der Spektralwerte ferner so zu 
bestimmen, dali sie zumindest einen binaren 



- 53 - 



Spektralwert aufweist, der in der ersten Anzahl von 
binaren Spektralwerten nicht enthalten ist; und 

Bilden (106) eines codierten Signals, wobei die 
Einrichtung zum Bilden ausgebildet ist, um die erste 
Teilskalierungsschicht und die zweite 

Teilskalierungsschicht so in das codierte Signal 
auf zunehmen, daJJ die erste und die zweite 
Teilskalierungsschicht (113a, 113b) getrennt 
voneinander decodierbar sind. 

Verfahren zum skalierbaren Decodieren eines codierten 
Signals, das eine erste und eine zweite 
Teilskalierungsschicht aufweist, wobei die erste 
Teilskalierungsschicht Bits bestiminter Ordnung einer 
ersten Anzahl von binaren Spektralwerten in einem Band 
aufweist, wobei die zweite Teilskalierungsschicht Bits 
der bestimmten Ordnung einer zweiten Anzahl von 
binaren Spektralwerte in dem Band aufweist, und wobei 
die zweite Anzahl zumindest einen Spektralwert 
aufweist, der in der ersten Anzahl nicht enthalten 
ist, mit folgenden Schritten: 

Extrahieren (704) der ersten Teilskalierungsschicht 
aus dem codierten Signal und der zweiten 
Teilskalierungsschicht aus dem codierten Signal; und 

Verarbeiten der ersten Teilskalierungsschicht und der 
zweiten Teilskalierungsschicht, um die Bits der 
bestimmten Ordnung der binaren quantisierten 
Spektralwerte in dem Band zu ermitteln. 

Computerprogramm mit einem Programmcode zur 
Durchfuhrung des Verfahrens gemali Anspruch 19 oder 
Anspruch 20, wenn das Programm auf einem Computer 
ablauft. 
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Vorrichtung und Verfahren zum skalierbaren Codieren und 
Vorrichtung und Verfahren zum skalierbare Decodieren 

5 Zusammenfassung 

Eine Vorrichtung zum skalierbaren Codieren eines Spektrums 
eines Signals, das Audio- und/oder Videoinf ormationen 
umfaJJt, wobei das Spektruiti binare Spektralwerte aufweist, 

10 umfaJit eine Einrichtung (102) zum Erzeugen einer ersten 
Teilskalierungsschicht und einer zweiten Teilskalierungs- 
schicht sowie eine Einrichtung (106) zum Bilden des 
codierten Signals, wobei die Einrichtung (106) zum Bilden 
ausgebildet ist, um die erste Teilskalierungsschicht und 

15 die zweite Teilskalierungsschicht so in das codierte Signal 
aufzunehmen, dali die erste und die zweite Teilskalierungs- 
schicht getrennt voneinander decodierbar sind. Eine 
Teilskalierungsschicht umfal^t im Gegensatz zu einer 
Vollskalierungsschicht nur die Bits bestimmter Ordnung 

20 eines Teils der binaren Spektralwerte in dem Band, so daJi 
durch zusatzliche Decodierung einer Teilskalierungsschicht 
ein feiner steuerbarer und feiner skalierbarer 
Genauigkeitsgewinn erzielbar ist. 



